JP6967412B2 - サジェスト生成装置、サジェスト生成プログラム及びサジェスト生成方法 - Google Patents
サジェスト生成装置、サジェスト生成プログラム及びサジェスト生成方法 Download PDFInfo
- Publication number
- JP6967412B2 JP6967412B2 JP2017180015A JP2017180015A JP6967412B2 JP 6967412 B2 JP6967412 B2 JP 6967412B2 JP 2017180015 A JP2017180015 A JP 2017180015A JP 2017180015 A JP2017180015 A JP 2017180015A JP 6967412 B2 JP6967412 B2 JP 6967412B2
- Authority
- JP
- Japan
- Prior art keywords
- topic
- word
- score
- candidate
- calculated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1は、第1実施形態のサジェスト生成装置のハードウェア構成を図示するブロック図である。
図2は、第1実施形態のサジェスト生成装置の機能的構成を図示するブロック図である。図3は、第1実施形態のサジェスト生成装置において行われる複数のトピックに対する処理を説明する図である。
図4は、第1実施形態のサジェスト生成装置が行う処理の流れを図示するフローチャートである。図5、図6及び図7は、第1実施形態のサジェスト生成装置におけるデータの変遷の例を図示する図である。
図13は、第1実施形態のサジェスト生成装置における候補単語のサジェストスコアの、第1の計算方法による計算例を説明する図である。
図14は、第1実施形態のサジェスト生成装置における候補単語のサジェストスコアの、第2の計算方法による計算例を説明する図である。
図15は、第1実施形態のサジェスト生成装置における候補単語のサジェストスコアの、第3の計算方法による計算例を説明する図である。
図16は、第1実施形態のサジェスト生成装置における候補単語のサジェストスコアの、第4の計算方法による計算例を説明する図である。
図17は、第1実施形態のサジェスト生成装置における各ユーザーグループについての各候補単語のサジェストスコアの計算アルゴリズムの別例を説明する図である。
図18は、第1実施形態のサジェスト生成装置において表示される画面の例を図示する模式図である。
1020 サジェスト生成プログラム
1100 除去部
1101 形態素解析部
1102 トピック分類部
1103 スコア因子計算部
1104 特定部
1105 スコア計算部
1106 提示部
1107 記憶部
1200 検索又は分析の対象のテキスト(除去前テキスト)
1201 入力単語
1202 除去後テキスト
1203 形態素解析済テキスト
1204 少なくともひとつのトピック語
1205 各トピック語のスコア因子
1206 少なくともひとつの所属トピック語
1207 サジェストワードリスト
1208 サジェスト
Claims (16)
- テキストに対して形態素解析を行って前記テキストを複数の単語に分割し形態素解析済テキストを得る形態素解析部と、
前記形態素解析済テキストに対してトピック分類を行って前記複数の単語から複数のトピックの各トピックに所属する少なくともひとつのトピック語を抽出するトピック分類部と、
前記少なくともひとつのトピック語の各トピック語が所属するトピックについて、前記各トピック語が所属するトピックを前記各トピック語が特徴づける程度を示す特徴度及び前記各トピック語が所属するトピックにおける前記各トピック語のトピック内出現確率の少なくとも一方を示す前記各トピック語のスコア因子を計算するスコア因子計算部と、
前記各トピックに所属し前記少なくともひとつのトピック語の少なくとも一部を含む少なくともひとつの所属トピック語を特定する特定部と、
各被抽出トピックに入力単語が所属するように前記複数のトピックから少なくともひとつの被抽出トピックを抽出し、前記入力単語と前記少なくともひとつの被抽出トピックに所属する複数の候補単語の各候補単語との関連度の強さを示す前記各候補単語のスコアの計算を行い、前記計算において、各所属トピックに前記各候補単語が所属するように前記少なくともひとつの被抽出トピックにおける少なくともひとつの所属トピックを特定し、前記少なくともひとつの所属トピックについてそれぞれ計算された前記各候補単語の少なくともひとつのスコア因子から前記各候補単語のスコアを計算するスコア計算部と、
前記各候補単語のスコアにより示される関連度の強さの順で前記複数の候補単語を提示する提示部と、
を備えるサジェスト生成装置。 - 除去前テキストからストップワードを除去し前記テキストを得る除去部をさらに備える
請求項1のサジェスト生成装置。 - 複合語が登録された強制抽出語辞書を記憶する記憶部をさらに備え、
前記形態素解析部は、前記複数の単語が前記複合語を含むように前記テキストを分割する
請求項1又は2のサジェスト生成装置。 - 過去の検索において使用された単語が記録された検索ログを記憶する記憶部をさらに備え、
前記スコア因子計算部は、
前記各トピック語が所属するトピックを前記各トピック語が特徴づける程度を示す特徴度及び前記各トピック語が所属するトピックにおける前記各トピック語のトピック内出現確率の少なくとも一方を示す前記各トピック語の加算前スコア因子を計算し、
各ユーザーグループについて、前記過去の検索において前記各ユーザーグループに所属するユーザーにより使用された使用済単語を前記検索ログから特定し、前記使用済単語が所属するトピックの加算スコア因子を計算し、前記各トピック語が所属するトピックの加算スコア因子を前記各トピック語の加算前スコア因子に加算することにより前記各トピック語のスコア因子を計算し、
前記スコア計算部は、
前記入力単語を入力したユーザーが属するユーザーグループについて計算された前記各候補単語の少なくともひとつのスコア因子から前記各候補単語のスコアを計算する
請求項1から3までのいずれかのサジェスト生成装置。 - 前記各トピック語のスコア因子は、前記各トピック語が所属するトピックを前記各トピック語が特徴づける程度を示す特徴度を示し、
前記各トピック語が所属するトピックを前記各トピック語が特徴づける程度を示す特徴度は、前記各トピック語が所属するトピックにおける前記各トピック語のトピック内出現確率を前記テキストにおける前記各トピック語の出現頻度で除することにより得られる
請求項1から4までのいずれかのサジェスト生成装置。 - 過去の検索において使用された単語が記録された検索ログを記憶する記憶部をさらに備え、
前記特定部は、設定回数より多い回数にわたって前記過去の検索において使用されたが前記少なくともひとつのトピック語に含まれない未抽出単語を前記検索ログから特定し、前記少なくともひとつの所属トピック語が前記未抽出単語を含むように前記少なくともひとつの所属トピック語を特定する
請求項1から5までのいずれかのサジェスト生成装置。 - 除外語が登録された除外語辞書を記憶する記憶部をさらに備え、
前記特定部は、前記少なくともひとつの所属トピック語が前記除外語を含まないように前記少なくともひとつの所属トピック語を特定する
請求項1から6までのいずれかのサジェスト生成装置。 - 前記スコア計算部は、
前記各所属トピックについて、前記各所属トピックについて計算された前記入力単語のスコア因子と前記各所属トピックについて計算された前記各候補単語のスコア因子との積を計算し、
前記少なくともひとつの所属トピックについてそれぞれ計算された少なくともひとつの積の最大値から前記各候補単語のスコアを計算する
請求項1から7までのいずれかのサジェスト生成装置。 - 前記スコア計算部は、
前記各所属トピックについて、前記各所属トピックについて計算された前記入力単語のスコア因子と前記各所属トピックについて計算された前記各候補単語のスコア因子との積を計算し、
前記少なくともひとつの所属トピックについてそれぞれ計算された少なくともひとつの積の積から前記各候補単語のスコアを計算する
請求項1から7までのいずれかのサジェスト生成装置。 - 前記各所属トピックについて計算された前記入力単語のスコア因子は、前記入力単語が前記各所属トピックを特徴づける程度を示す特徴度を示し、
前記各所属トピックについて計算された前記各候補単語のスコア因子は、前記各候補単語が前記各所属トピックを特徴づける程度を示す特徴度を示す
請求項8又は9のサジェスト生成装置。 - 前記各所属トピックについて計算された前記入力単語のスコア因子は、前記入力単語が前記各所属トピックを特徴づける程度を示す特徴度を示し、
前記各所属トピックについて計算された前記各候補単語のスコア因子は、前記各所属トピックにおける前記各候補単語のトピック内出現確率を示す
請求項8又は9のサジェスト生成装置。 - 前記スコア計算部は、
前記少なくともひとつの所属トピックについてそれぞれ計算された前記各候補単語の少なくともひとつのスコア因子の最大値から前記各候補単語のスコアを計算する
請求項1から7までのいずれかのサジェスト生成装置。 - 前記各所属トピックについて計算された前記各候補単語のスコア因子は、前記各所属トピックにおける前記各候補単語のトピック内出現確率である
請求項12のサジェスト生成装置。 - 過去の検索において使用された単語が記録された検索ログを記憶する記憶部をさらに備え、
前記スコア計算部は、
前記入力単語と前記各候補単語との関連度の強さを示す前記各候補単語の加算前スコアを計算し、
各ユーザーグループについて、前記過去の検索において前記各ユーザーグループに属するユーザーにより使用された使用済単語を前記検索ログから特定し、前記使用済単語の加算スコアを計算し、前記各候補単語の加算スコアを前記各候補単語の加算前スコアに加算することにより前記各候補単語のスコアを計算する
請求項1から13までのいずれかのサジェスト生成装置。 - a) テキストに対して形態素解析を行って前記テキストを複数の単語に分割し形態素解析済テキストを得る工程と、
b) 前記形態素解析済テキストに対してトピック分類を行って前記複数の単語から複数のトピックの各トピックに所属する少なくともひとつのトピック語を抽出する工程と、
c) 前記少なくともひとつのトピック語の各トピック語が所属するトピックについて、前記各トピック語が所属するトピックを前記各トピック語が特徴づける程度を示す特徴度及び前記各トピック語が所属するトピックにおける前記各トピック語のトピック内出現確率の少なくとも一方を示す前記各トピック語のスコア因子を計算する工程と、
d) 前記各トピックに所属し前記少なくともひとつのトピック語の少なくとも一部を含む少なくともひとつの所属トピック語を特定する工程と、
e) 各被抽出トピックに入力単語が所属するように前記複数のトピックから少なくともひとつの被抽出トピックを抽出し、前記入力単語と前記少なくともひとつの被抽出トピックに所属する複数の候補単語の各候補単語との関連度の強さを示す前記各候補単語のスコアの計算を行い、前記計算において、各所属トピックに前記各候補単語が所属するように前記少なくともひとつの被抽出トピックにおける少なくともひとつの所属トピックを特定し、前記少なくともひとつの所属トピックについてそれぞれ計算された前記各候補単語の少なくともひとつのスコア因子から前記各候補単語のスコアを計算する工程と、
f) 前記各候補単語のスコアにより示される関連度の強さの順で前記複数の候補単語を提示する工程と、
をコンピューターに実行させるサジェスト生成プログラム。 - a) テキストに対して形態素解析を行って前記テキストを複数の単語に分割し形態素解析済テキストを得る工程と、
b) 前記形態素解析済テキストに対してトピック分類を行って前記複数の単語から複数のトピックの各トピックに所属する少なくともひとつのトピック語を抽出する工程と、
c) 前記少なくともひとつのトピック語の各トピック語が所属するトピックについて、前記各トピック語が所属するトピックを前記各トピック語が特徴づける程度を示す特徴度及び前記各トピック語が所属するトピックにおける前記各トピック語のトピック内出現確率の少なくとも一方を示す前記各トピック語のスコア因子を計算する工程と、
d) 前記各トピックに所属し前記少なくともひとつのトピック語の少なくとも一部を含む少なくともひとつの所属トピック語を特定する工程と、
e) 各被抽出トピックに入力単語が所属するように前記複数のトピックから少なくともひとつの被抽出トピックを抽出し、前記入力単語と前記少なくともひとつの被抽出トピックに所属する複数の候補単語の各候補単語との関連度の強さを示す前記各候補単語のスコアの計算を行い、前記計算において、各所属トピックに前記各候補単語が所属するように前記少なくともひとつの被抽出トピックにおける少なくともひとつの所属トピックを特定し、前記少なくともひとつの所属トピックについてそれぞれ計算された前記各候補単語の少なくともひとつのスコア因子から前記各候補単語のスコアを計算する工程と、
f) 前記各候補単語のスコアにより示される関連度の強さの順で前記複数の候補単語を提示する工程と、
を備え、ソフトウェアの制御によってコンピュータが行う情報処理方法としてのサジェスト生成方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017180015A JP6967412B2 (ja) | 2017-09-20 | 2017-09-20 | サジェスト生成装置、サジェスト生成プログラム及びサジェスト生成方法 |
PCT/JP2018/024841 WO2019058698A1 (ja) | 2017-09-20 | 2018-06-29 | サジェスト生成装置、サジェスト生成プログラム及びサジェスト生成方法 |
TW107126176A TWI703453B (zh) | 2017-09-20 | 2018-07-27 | 建議詞語生成裝置、記錄有建議詞語生成程式之電腦可讀取之記錄媒體及建議詞語生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017180015A JP6967412B2 (ja) | 2017-09-20 | 2017-09-20 | サジェスト生成装置、サジェスト生成プログラム及びサジェスト生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019057017A JP2019057017A (ja) | 2019-04-11 |
JP6967412B2 true JP6967412B2 (ja) | 2021-11-17 |
Family
ID=65811318
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017180015A Active JP6967412B2 (ja) | 2017-09-20 | 2017-09-20 | サジェスト生成装置、サジェスト生成プログラム及びサジェスト生成方法 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP6967412B2 (ja) |
TW (1) | TWI703453B (ja) |
WO (1) | WO2019058698A1 (ja) |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3230868B2 (ja) * | 1992-12-28 | 2001-11-19 | 株式会社リコー | 音声合成装置 |
WO2006113506A2 (en) * | 2005-04-15 | 2006-10-26 | Perfect Market Technologies, Inc. | Search engine with suggestion tool and method of using same |
US20070192318A1 (en) * | 2005-09-14 | 2007-08-16 | Jorey Ramer | Creation of a mobile search suggestion dictionary |
JP4869292B2 (ja) * | 2008-06-20 | 2012-02-08 | ヤフー株式会社 | 検索キーワードを推薦するサーバ、方法、およびプログラム |
JP5311378B2 (ja) * | 2008-06-26 | 2013-10-09 | 国立大学法人京都大学 | 特徴語自動学習システム、コンテンツ連動型広告配信コンピュータシステム、検索連動型広告配信コンピュータシステム、およびテキスト分類コンピュータシステム、並びにこれらのコンピュータプログラムおよび方法 |
JP5338835B2 (ja) * | 2011-03-24 | 2013-11-13 | カシオ計算機株式会社 | 類義語リストの生成方法および生成装置、当該類義語リストを用いた検索方法および検索装置、ならびに、コンピュータプログラム |
JP5558539B2 (ja) * | 2012-09-24 | 2014-07-23 | ヤフー株式会社 | 検索システム、検索方法およびプログラム |
CN105095204B (zh) * | 2014-04-17 | 2018-12-14 | 阿里巴巴集团控股有限公司 | 同义词的获取方法及装置 |
JP6470636B2 (ja) * | 2015-06-04 | 2019-02-13 | キヤノン株式会社 | 情報処理装置、その制御方法、及びプログラム |
-
2017
- 2017-09-20 JP JP2017180015A patent/JP6967412B2/ja active Active
-
2018
- 2018-06-29 WO PCT/JP2018/024841 patent/WO2019058698A1/ja active Application Filing
- 2018-07-27 TW TW107126176A patent/TWI703453B/zh active
Also Published As
Publication number | Publication date |
---|---|
WO2019058698A1 (ja) | 2019-03-28 |
TWI703453B (zh) | 2020-09-01 |
JP2019057017A (ja) | 2019-04-11 |
TW201915785A (zh) | 2019-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019049483A1 (ja) | 同義語辞書作成装置、同義語辞書作成プログラム及び同義語辞書作成方法 | |
JP4233836B2 (ja) | 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム | |
US9881037B2 (en) | Method for systematic mass normalization of titles | |
AU2015203818B2 (en) | Providing contextual information associated with a source document using information from external reference documents | |
US8886661B2 (en) | Information extraction system, information extraction method, information extraction program, and information service system | |
RU2547213C2 (ru) | Присвоение применимых на практике атрибутов данных, которые описывают идентичность личности | |
US10353925B2 (en) | Document classification device, document classification method, and computer readable medium | |
JP4595692B2 (ja) | 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
KR20070089449A (ko) | 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체. | |
JP2014106665A (ja) | 文書検索装置、文書検索方法 | |
JP2014010758A (ja) | ファイル管理装置、ファイル管理方法、及びプログラム | |
CN112395881B (zh) | 物料标签的构建方法、装置、可读存储介质及电子设备 | |
JP7110554B2 (ja) | オントロジー生成装置、オントロジー生成プログラム及びオントロジー生成方法 | |
JP3583631B2 (ja) | 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP5138621B2 (ja) | 情報処理装置及び不満解決商品発見方法及びプログラム | |
JP6967412B2 (ja) | サジェスト生成装置、サジェスト生成プログラム及びサジェスト生成方法 | |
JP4525433B2 (ja) | 文書集約装置及びプログラム | |
JP4569179B2 (ja) | ドキュメント検索装置 | |
JP5679400B2 (ja) | カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
CN115129864A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
JP2019133367A (ja) | 営業支援装置及び方法 | |
CN113919352A (zh) | 数据库敏感数据识别方法及装置 | |
JP6181890B2 (ja) | 文献解析装置、文献解析方法およびプログラム | |
JP7488207B2 (ja) | 将来事象推定システム、および将来事象推定方法 | |
KR102649622B1 (ko) | 브랜드 평판 분석 서비스를 제공하기 위한 방법, 컴퓨터 장치, 및 컴퓨터 프로그램 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200622 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210713 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210909 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210928 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211025 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6967412 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |