JP6967412B2 - サジェスト生成装置、サジェスト生成プログラム及びサジェスト生成方法 - Google Patents

サジェスト生成装置、サジェスト生成プログラム及びサジェスト生成方法 Download PDF

Info

Publication number
JP6967412B2
JP6967412B2 JP2017180015A JP2017180015A JP6967412B2 JP 6967412 B2 JP6967412 B2 JP 6967412B2 JP 2017180015 A JP2017180015 A JP 2017180015A JP 2017180015 A JP2017180015 A JP 2017180015A JP 6967412 B2 JP6967412 B2 JP 6967412B2
Authority
JP
Japan
Prior art keywords
topic
word
score
candidate
calculated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017180015A
Other languages
English (en)
Other versions
JP2019057017A (ja
Inventor
明子 吉田
清孝 粕渕
隆夫 吉和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Screen Holdings Co Ltd
Original Assignee
Screen Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Screen Holdings Co Ltd filed Critical Screen Holdings Co Ltd
Priority to JP2017180015A priority Critical patent/JP6967412B2/ja
Priority to PCT/JP2018/024841 priority patent/WO2019058698A1/ja
Priority to TW107126176A priority patent/TWI703453B/zh
Publication of JP2019057017A publication Critical patent/JP2019057017A/ja
Application granted granted Critical
Publication of JP6967412B2 publication Critical patent/JP6967412B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、入力単語と関連する単語を提示するサジェスト生成装置、サジェスト生成プログラム及びサジェスト生成方法に関する。
テキストが作成される場合又はテキストに対して検索が行われる場合に、入力単語と関連する単語を提示するサジェストが生成される。
サジェストの生成は、ユーザーの検索履歴から単語を抽出し、抽出した単語を表示することにより行われる場合もあるし、検索を行うテキストから入力単語を含むテキストを抽出し、抽出したテキストから単語をさらに抽出し、抽出した単語を表示することにより行われる場合もある。特許文献1及び2に記載された技術は、前者の例であり、特許文献3に記載された技術は、後者の例である。
特許文献1に記載された技術においては、検索クエリの履歴が検索クエリ候補として記憶され、記憶された検索クエリ候補の中でユーザー属性に適合する検索クエリ候補が提示される(段落0031及び0032)。
特許文献2に記載された技術においては、検索ログデータベースから検索クエリと再検索クエリとの組み合わせが抽出され、抽出された組み合わせについて検索クエリと再検索クエリとの間の関連度を示すスコアが算出され、受信された検索クエリに対応する再検索クエリからスコアの高い順に所定数の再検索クエリがサジェスチョンクエリとして抽出される(段落0026,0030及び0034)。また、検索クエリと再検索クエリとの共起率が算出され、共起率が所定以上である場合に組み合わせが除外される(段落0027及び0029)。
特許文献3に記載された技術においては、検索対象の文書データファイル群の中から指定されたキーワードを含む文書データファイルが検索され、検索されたキーワードを含む文書データファイルの中から指定キーワードを含む文書単位が取り出され、単語が抽出され、抽出された単語を時間順に配置した単語関係データが作成され、作成された単語関係データの単語リストが合成されて文書作成時間の順に従って表示される(段落0040)。
特開2015−106354号公報 特開2012−168844号公報 特開平9−259133号公報
しかし、従来のサジェストの生成には、入力単語と関連する単語を提示できない場合があるという問題がある。
例えば、特許文献1に記載された技術においては、検索クエリの履歴から検索クエリ候補が生成されるため、ユーザーが、検索クエリと関連する検索クエリを知らず、当該検索クエリを過去の検索において使用していない場合は、検索クエリと関連する検索クエリ候補を提示できない。
同様に、特許文献2に記載された技術においては、検索ログデータベースからサジェスチョンクエリが生成されるため、ユーザーが、検索クエリと関連する検索クエリを知らず、当該検索クエリを過去の検索において使用していない場合は、検索クエリと関連するサジェスチョンクエリを提示できない。
また、特許文献3に記載された技術においては、検索対象の文書データファイル群から表示される単語リストが生成されるが、そのようにして生成される単語リストがキーワードと関連する単語を含むとは限らない。
本発明は、上記の問題を解決するためになされる。本発明が解決しようとする課題は、高い精度で入力単語と関連する単語を提示するサジェスト生成装置、サジェスト生成方法及びサジェスト生成プログラムを提供することである。
サジェストの生成において、テキストに対して形態素解析が行われ、テキストが複数の単語に分割され、形態素解析済テキストが得られる。
形態素解析済テキストに対してトピック分類が行われ、複数の単語から複数のトピックの各トピックに所属する少なくともひとつのトピック語が抽出される。
少なくともひとつのトピック語の各トピック語が所属するトピックについて、各トピック語のスコア因子が計算される。各トピック語のスコア因子は、各トピック語が所属するトピックを各トピック語が特徴づける程度を示す特徴度及び各トピック語が所属するトピックにおける各トピック語のトピック内出現確率の少なくとも一方を示す。
各トピックに所属する少なくともひとつの所属トピック語が特定される。少なくともひとつの所属トピック語は、抽出された少なくともひとつのトピック語の少なくとも一部を含む。
複数のトピックから少なくともひとつの被抽出トピックが抽出される。少なくともひとつの被抽出トピックの抽出は、少なくともひとつの被抽出トピックの各被抽出トピックに入力単語が所属するように行われる。
入力単語と少なくともひとつの被抽出トピックに所属する複数の候補単語の各候補単語との関連度の強さを示す各候補単語のスコアが計算される。
各候補単語のスコアの計算においては、少なくともひとつの被抽出トピックにおいて少なくともひとつの所属トピックが特定される。少なくともひとつの所属トピックの特定は、少なくともひとつの所属トピックの各所属トピックに各候補単語が所属するように行われる。
少なくともひとつの所属トピックについてそれぞれ計算された各候補単語の少なくともひとつのスコア因子から各候補単語のスコアが計算される。
各候補単語のスコアにより示される関連度の強さの順で複数の候補単語が提示される。
本発明によれば、テキストからトピック分類を経て提示される単語が抽出されるため、高い精度で入力単語に関連する単語を提示するサジェスト生成装置、サジェスト生成方法及びサジェスト生成プログラムが提供される。
この発明の目的、特徴、局面、及び利点は、以下の詳細な説明と添付図面とによって、より明白となる。
第1実施形態のサジェスト生成装置のハードウェア構成を図示するブロック図である。 第1実施形態のサジェスト生成装置の機能的構成を図示するブロック図である。 第1実施形態のサジェスト生成装置において行われる複数のトピックに対する処理を説明する図である。 第1実施形態のサジェスト生成装置が行う処理の流れを図示するフローチャートである。 第1実施形態のサジェスト生成装置におけるデータの変遷の例を図示する図である。 第1実施形態のサジェスト生成装置におけるデータの変遷の例を図示する図である。 第1実施形態のサジェスト生成装置におけるデータの変遷の例を図示する図である。 第1実施形態のサジェスト生成装置における各ユーザーグループについてのサジェストスコアの計算アルゴリズムを説明する図である。 第1実施形態のサジェスト生成装置に記憶される検索ログの例を図示する図である。 第1実施形態のサジェスト生成装置に記憶されるユーザー管理テーブルの例を図示する図である。 第1実施形態のサジェスト生成装置において計算される加算スコア因子テーブルの例を図示する図である。 第1実施形態のサジェスト生成装置において作成されるサジェストワードリストの例を図示する図である。 第1実施形態のサジェスト生成装置における各候補単語のサジェストスコアの、第1の計算方法による計算例を説明する図である。 第1実施形態のサジェスト生成装置における各候補単語のサジェストスコアの、第2の計算方法による計算例を説明する図である。 第1実施形態のサジェスト生成装置における各候補単語のサジェストスコアの、第3の計算方法による計算例を説明する図である。 第1実施形態のサジェスト生成装置における各候補単語のサジェストスコアの、第4の計算方法による計算例を説明する図である。 第1実施形態のサジェスト生成装置における各ユーザーグループについての各候補単語のサジェストスコアの計算アルゴリズムの別例を説明する図である。 第1実施形態のサジェスト生成装置において表示される画面の例を図示する模式図である。
1 ハードウェア構成
図1は、第1実施形態のサジェスト生成装置のハードウェア構成を図示するブロック図である。
図1に図示されるサジェスト生成装置1000は、サジェスト生成プログラム1020がインストールされたパーソナルコンピューター(PC)であり、中央処理装置(CPU)1040、メモリー1041、ハードディスクドライブ1042及びディスプレイ1043を備える。サジェスト生成装置1000がこれらの構成物以外の構成物を備えてもよい。
サジェスト生成装置1000においては、サジェスト生成プログラム1020がハードディスクドライブ1042にインストールされる。サジェスト生成プログラム1020のインストールは、コンパクトディスク(CD)、デジタル多目的ディスク(DVD)、ユニバーサルシリアルバス(USB)メモリー等の外部記憶媒体1060から読み出したデータをハードディスクドライブ1042に書き込むことにより行われてもよいし、ネットワーク1080を経由して受信したデータをハードディスクドライブ1042に書き込むことにより行われてもよい。ハードディスクドライブ1042が他の種類の補助記憶装置に置き換えられてもよい。例えば、ハードディスクドライブ1042がソリッドステートドライブ、ランダムアクセスメモリー(RAM)ディスク等に置き換えられてもよい。
サジェスト生成装置1000においては、ハードディスクドライブ1042にインストールされたサジェスト生成プログラム1020がメモリー1041にロードされ、ロードされたサジェスト生成プログラム1020がCPU1040により実行されることにより、PCがサジェスト生成プログラム1020を実行しサジェスト生成装置1000として機能する。
2 機能的構成
図2は、第1実施形態のサジェスト生成装置の機能的構成を図示するブロック図である。図3は、第1実施形態のサジェスト生成装置において行われる複数のトピックに対する処理を説明する図である。
サジェスト生成装置1000は、図2に図示されるように、除去部1100、形態素解析部1101、トピック分類部1102、スコア因子計算部1103、特定部1104、スコア計算部1105、提示部1106及び記憶部1107を備え、検索又は分析の対象のテキスト1200及び入力単語1201からサジェスト1208を生成する。記憶部1107は、強制抽出語辞書1300、除外語辞書1301、検索ログ1302及びユーザー管理テーブル1303を記憶する。サジェスト生成装置1000がこれらの構成物以外の構成物を備えてもよい。入力単語1201は、検索において使用される検索語であってもよいし、新たなテキストの作成のために入力される単語であってもよい。サジェスト1208は、入力単語1201と関連する単語の提示である。
除去部1100、形態素解析部1101、トピック分類部1102、スコア因子計算部1103、特定部1104、スコア計算部1105及び提示部1106は、PCにサジェスト生成プログラム1020を実行させることにより構成される。記憶部1107は、メモリー1041及びハードディスクドライブ1042の少なくとも一方により構成される。
CPU1040が行う処理の全部又は一部がCPU1040以外の処理装置により行われてもよい。例えば、CPU1040により行われる処理の全部又は一部がグラフィックス処理装置(GPU)により行われてもよい。CPU1040により行われる処理の全部又は一部がプログラムを実行しないハードウェアにより行われてもよい。
除去部1100は、ストップワードが除去されていない除去前テキスト1200からストップワードを除去してストップワードが除去された除去後テキスト1202を得る。検索又は分析の対象のテキスト1200がストップワードを含まない場合等のストップワードの除去が不要である場合は、除去部1100が省略されてもよい。
形態素解析部1101は、除去後テキスト1202に対して形態素解析を行って除去後テキスト1202を複数の単語に分割し、分割により得られる複数の単語を含む形態素解析済テキスト1203を得る。形態素解析部1101は、除去後テキスト1202に対する形態素解析において、強制抽出語辞書1300を使用する。強制抽出語辞書1300の使用が省略されてもよい。
トピック分類部1102は、形態素解析済テキスト1203に対してトピック分類を行って形態素解析済テキスト1203に含まれる複数の単語から複数のトピックの各トピックに所属する少なくともひとつのトピック語1204を抽出する。
スコア因子計算部1103は、トピック分類部1102により抽出された少なくともひとつのトピック語1204の各トピック語が所属するトピックについて、各トピック語のスコア因子1205を計算する。各トピック語のスコア因子1205は、各トピック語が所属するトピックを各トピック語が特徴づける程度を示す特徴度及び各トピック語が所属するトピックにおける各トピック語のトピック内出現確率の少なくとも一方を示す。各トピック語のスコア因子1205は、後述する候補単語のサジェストスコアに含まれる因子となりうる。
特定部1104は、図3に図示されるように、複数のトピック1250の各トピックに属する少なくともひとつの所属トピック語1206を特定する。各トピックに属する少なくともひとつの所属トピック語1206は、トピック分類部1102により抽出された各トピックに属する少なくともひとつのトピック語1204の少なくとも一部を含む。特定部1104は、図2に図示されるように、各トピックに属する少なくともひとつの所属トピック語1206の特定において、検索ログ1302及び除外語辞書1301を使用する。これにより、各トピックに属する少なくともひとつの所属トピック語1206が、各トピックに属する少なくともひとつのトピック語1204の少なくとも一部を含み、各トピックに属する少なくともひとつのトピック語1204に含まれない未抽出単語を含む。検索ログ1302及び除外語辞書1301の少なくとも一方の使用が省略されてもよい。検索ログ1302の使用が省略された場合は、各トピックに属する少なくともひとつの所属トピック語1206が、各トピックに属する少なくともひとつのトピック語1204に含まれない未抽出単語を含まない。除外語辞書1301の使用が省略された場合は、各トピックに属する少なくともひとつの所属トピック語1206が、各トピックに属する少なくともひとつのトピック語1204の全部を含む。
スコア計算部1105は、図3に図示されるように、複数のトピック1250から、入力単語1201が所属する少なくともひとつの被抽出トピック1251を抽出する。少なくともひとつの被抽出トピック1251の抽出は、少なくともひとつの被抽出トピック1251の各抽出トピックに入力単語1201が所属するように行われる。少なくともひとつの被抽出トピック1251に所属する複数の単語は、サジェスト1208の生成において提示される可能性がある複数の候補単語1260となる。
スコア計算部1105は、入力単語1201と複数の候補単語1260の各候補単語1261との関連度の強さを示す各候補単語1261のサジェストスコアを計算する。スコア計算部1105は、各候補単語1261のサジェストスコアの計算において、少なくともひとつの被抽出トピック1251において各候補単語1261が所属する少なくともひとつの所属トピック1252を特定する。少なくともひとつの所属トピック1252の特定は、少なくともひとつの所属トピック1252の各所属トピックに各候補単語1261が所属するように行われる。
スコア計算部1105は、少なくともひとつの所属トピック1252についてそれぞれ計算された各候補単語1261の少なくともひとつのスコア因子から各候補単語1261のサジェストスコアを計算する。
スコア計算部1105は、図2に図示されるように、各候補単語1261のサジェストスコアにより示される関連度の強さの順で複数の候補単語1260をソートしてサジェストワードリスト1207を作成する。スコア計算部1105は、サジェストワードリスト1207の作成において、検索ログ1302及びユーザー管理テーブル1303を使用し、各ユーザーグループについて各ユーザーグループに固有のサジェストワードリスト1207を作成する。
提示部1106は、サジェストワードリスト1207にしたがってサジェスト1208を生成する。サジェスト1208においては、サジェストワードリスト1207に含まれる複数の候補単語1260が各候補単語1261のサジェストスコアにより示される関連度の強さの順で提示される。
サジェスト生成装置1000によれば、検索又は分析の対象のテキスト1200及び入力単語1201からサジェスト1208が生成されるので、テキスト1200が存在する場合は、検索ログ1302等の検索履歴が存在しない場合又は検索ログ1302等の検索履歴が不十分である場合においても、サジェスト1208が自動的に生成され、入力単語1201と関連する単語が自動的に提示される。また、サジェスト生成装置1000によれば、提示される単語が、テキスト1200から単純に抽出された単語ではなく、テキスト1200からトピック分類を経て抽出された単語であるため、高い精度を有するサジェスト1208が生成される。
3 処理及びデータの変遷の例
図4は、第1実施形態のサジェスト生成装置が行う処理の流れを図示するフローチャートである。図5、図6及び図7は、第1実施形態のサジェスト生成装置におけるデータの変遷の例を図示する図である。
図4に図示されるステップS101においては、除去部1100が、検索又は分析の対象のテキスト1200からストップワードを除去して除去後テキスト1202を得る。検索又は分析の対象のテキスト1200は、過去に作成されたテキスト等である。除去されるストップワードは、以降の解析に不要なノイズとなる単語である。ストップワードとして除去される単語は、テキスト1200の具体的内容を表現しない識別符号等である。「http://」等の様々なURLに共通して含まれる文字列もストップワードとして除去される。図5に図示される例においては、「R000003」というテキスト要素1400、「開発工程カスタマイズ」というテキスト要素1401、「マスターデータ(ユーザー、プロジェクト、製品、・・・」というテキスト要素1402、「R000002」というテキスト要素1403、「予測式登録時の工程割合の・・・」というテキスト要素1404及び「工程割合の入力は小数点第2位まで入力可能に…」というテキスト要素1405がテキスト1200に含まれ、テキスト要素1400及び1403がストップワードとして除去されている。
図4に図示される、ステップS101に続くステップS102においては、形態素解析部1101が、除去後テキスト1202に対して形態素解析を行って除去後テキスト1202を複数の単語に分割し、分割により得られる複数の単語を含む形態素解析済テキスト1203を得る。図5に図示される例においては、テキスト要素1401が「開発工程」及び「カスタマイズ」という複数の単語1411に分割され、テキスト要素1402が「マスターデータ」、「ユーザー」、「プロジェクト」、「製品」等という複数の単語1412に分割され、テキスト要素1404が「予測式」、「登録」、「時」、「の」、「工程」、「割合」、「の」等という複数の単語1414に分割され、テキスト要素1405が「工程」、「割合」、「の」、「入力」、「は」、「小数点」、「第2位」、「まで」、「入力」、「可能」、「に」等という複数の単語1415に分割されている。
形態素解析部1101は、2個以上の形態素からなる複合語である専門用語が登録された強制抽出語辞書1300を使用して強制抽出語辞書1300に登録された専門用語を除去後テキスト1202から強制的に抽出し、形態素解析済テキスト1203に含まれる複数の単語が抽出された専門単語を含むように除去後テキスト1202を複数の単語に分割する。これにより、複合語である専門用語が分割されずに正常に抽出される。図5に示される例においては、「マスターデータ」という専門用語1416及び「予測式」という専門用語1417が強制的に抽出されている。
図4に図示される、ステップS102に続くステップS103においては、トピック分類部1102が、形態素解析済テキスト1203に対してトピック分類を行って複数の単語から複数のトピック1250の各トピックに属する少なくともひとつのトピック語1204を抽出する。トピック分類とは、入力されたテキストにおいて扱われているトピックを推定し、入力されたテキストを構成する文章を複数のトピックに分類することである。トピックは、話題、分野等の概略の意味を示す。図6に図示される例においては、トピックNo.「0」が付与されたトピックに属する「アプリ」、「バージョン」、「開発」及び「仕様」という複数のトピック語1420が抽出され、トピックNo.「1」が付与されたトピックに属する「テスト」、「デバッグ」、「単体」及び「管理」という複数のトピック語1421が抽出され、トピックNo.「2」が付与されたトピックに属する「ソフト」、「対応」、「期日」及び「確認」という複数のトピック語1422が抽出され、トピックNo.「3」が付与されたトピックに属する「設計」、「ユースケース」、「ボタン」及び「配置」という複数のトピック語1423が抽出され、トピックNo.「4」が付与されたトピックに属する「リリース」、「対応」、「ノート」及び「準備」という複数のトピック語1424が抽出され、トピックNo.「5」が付与されたトピックに属する「問い合わせ」、「受ける」、「回答」及び「記述」という複数のトピック語1425が抽出され、トピックNo.「6」が付与されたトピックに属する「顧客」、「ヒアリング」、「主要求」及び「副要求」という複数のトピック語1426が抽出されている。
図4に図示される、ステップS103に続くステップS104においては、スコア因子計算部1103が、トピック分類部1102により抽出された少なくともひとつのトピック語1204の各トピック語が所属するトピックについて、各トピック語のスコア因子を計算する。各トピック語のスコア因子は、各トピック語が所属するトピックを各トピック語が特徴づける程度を示す特徴度及び各トピックが所属するトピックにおける各トピック語のトピック内出現確率の少なくとも一方を示す。図6に図示される例においては、トピックID「corpus1_0_0」が付与されたトピックについて、「アプリ」というトピック語1430の「4.675」という特徴度1440及び「11.21%」というトピック内出現確率1450が計算され、「デバッグ」というトピック語1431の「4.435」という特徴度1441及び「5.00%」というトピック内出現確率1451が計算され、「単体」というトピック語1432の「3.599」という特徴度1442及び「4.30%」というトピック内出現確率1452が計算され、「言語」というトピック語1433の「3.199」という特徴度1443及び「3.40%」というトピック内出現確率1453が計算され、「バージョン」というトピック語1434の「2.620」という特徴度1444及び「3.35%」というトピック内出現確率1454が計算されている。
トピック分類部1102により抽出された少なくともひとつのトピック語1204の各トピック語の特徴度は、各トピック語が所属するトピックにおける各トピック語の出現しやすさを示す指標であり、トピック分類において求められる各トピック語のトピック内出現確率が大きくなるほど大きくなるように決定され、検索又は分析の対象のテキスト1200における各トピック語の出現頻度が大きくなるほど小さくなるように決定される。望ましくは、各トピック語の特徴度は、式(1)に示されるように、各トピック語のトピック内出現確率をテキストにおける各トピック語の出現頻度で除することにより得られる。テキストにおける各トピック語の出現頻度で除することは、様々なトピックに属し各トピックを特徴づける性質が弱い単語が提示されやすくなることを抑制する。
Figure 0006967412
テキストにおける各トピック語の出現頻度は、式(2)に示されるように、テキストにおける各トピック語の出現数をテキストの全体における単語数で除することにより得られる。
Figure 0006967412
図4に図示される、ステップS104に続くステップS105においては、過去の検索において使用された単語が記録された検索ログ1302が存在するか否かが判定される。検索ログ1302が存在すると判定された場合は、図4に図示されるステップS106において未抽出単語の追加が行われ、図4に図示されるステップS107において加算スコア因子の計算が行われ、図4に図示されるステップS108において除外語の削除が行われる。一方、検索ログ1302が存在しないと判定された場合は、図4に図示されるステップS108において除外語の削除が行われる。
ステップS106においては、特定部1104が、図7に図示されるように、設定回数より多い回数にわたって過去の検索において使用されたが、トピック分類部1102により抽出された少なくともひとつのトピック語1204に含まれない未抽出単語を検索ログ1302から特定し、特定した未抽出単語をトピック分類部1102により抽出された少なくともひとつのトピック語1204に追加し、更新された少なくともひとつのトピック語1209を得る。これにより、特定部1104により特定される少なくともひとつの所属トピック語1206が未抽出単語を含むようになる。
図8は、第1実施形態のサジェスト生成装置における各ユーザーグループについての各候補単語のサジェストスコアの計算アルゴリズムを説明する図である。図9は、第1実施形態のサジェスト生成装置に記憶される検索ログの例を図示する図である。図10は、第1実施形態のサジェスト生成装置に記憶されるユーザー管理テーブルの例を図示する図である。図11は、第1実施形態のサジェスト生成装置において計算される加算スコア因子テーブルの例を図示する図である。
検索ログ1302には、各検索を行ったユーザーを特定する情報及び各検索において使用された単語が互いに対応づけられた状態で記録される。図9に図示される例においては、例えば、「001」というユーザー識別子(ID)1500、「アプリ」という検索ワード1501及び「2016-12-26 16:55:22.916」という検索時刻1502が互いに対応づけられた状態で記録されている。ユーザーID1500は、各検索を行ったユーザーを特定する情報である。検索ワード1501は、各検索において使用された単語である。
ユーザー管理テーブル1303には、ユーザーを特定する情報及びユーザーが所属するユーザーグループを特定する情報が互いに対応づけられた状態で格納される。図10に図示される例においては、例えば、「0001」というユーザーID1510、「XXXX」という名前1511及び「G001」というグループ(部門)ID1512が互いに関連づけられた状態で格納され、「G001」というグループ(部門)ID1520及び「ユーザー窓口」という名前1521が互いに関連づけられた状態で格納されている。ユーザーID1510及び名前1511は、ユーザーを特定する情報である。グループ(部門)ID1520及び名前1521は、ユーザーが所属するユーザーグループを特定する情報である。
検索ログ1302及びユーザー管理テーブル1303を参照することにより、過去の検索において各ユーザーグループに所属するユーザーにより使用された使用済単語を特定することができる。
図4に図示されるステップS107においては、スコア因子計算部1103が、各ユーザーグループについて、図8に図示されるように、過去の検索において各ユーザーグループに所属するユーザーにより使用された使用済単語を検索ログ1302及びユーザー管理テーブル1303から特定し、特定した使用済単語が所属するトピックの加算スコア因子1530を計算する。図11に図示される例においては、例えば、「G001」というグループID1540が付与されたユーザーグループについて、「corpus1_0_0」というトピックID1541が付与されたトピックの「10」という加算スコア因子1542が計算されている。
また、スコア因子計算部1103が、各ユーザーグループについて、図8に図示されるように、トピック分類部1102により抽出された少なくともひとつのトピック語1204の各トピック語が属するトピックの加算スコア因子1530をステップS104において計算された各トピック語の加算前スコア因子1531に加算することにより各トピック語のスコア因子1205を計算する。各トピック語のスコア因子1205も、各トピック語が所属するトピックを各トピック語が特徴づける程度を示す特徴度及び各トピック語が所属するトピックにおける各トピック語のトピック内出現確率の少なくとも一方を示すが、各ユーザーグループに固有の各トピック語のスコア因子となっている。各ユーザーグループに固有の各トピック語のスコア因子1205によれば、各ユーザーグループに適したサジェスト1208を生成することが可能になる。ステップS107において計算された各トピック語のスコア因子1205は、各候補単語1261のサジェストスコア1532の計算に使用される。ステップS107が省略され、ステップS104において計算された各トピック語のスコア因子が各候補単語1261のサジェストスコア1532の計算に使用されてもよい。
図4に図示されるステップS108においては、特定部1104が、図7に図示されるように、検索又は分析において不要である除外語が登録された除外語辞書1301を使用して少なくともひとつのトピック語1209から除外語辞書1301に登録された除外語を削除し、少なくともひとつの所属トピック語1206を得る。これにより、特定部1104により特定される少なくともひとつの所属トピック語1206が除外語を含まなくなる。
図4に図示される、ステップS108に続くステップS109においては、スコア計算部1105が、図3に図示されるように、複数のトピック1250から、入力単語1201が所属する少なくともひとつの被抽出トピック1251を抽出する。少なくともひとつの被抽出トピック1251の抽出は、入力単語1201が少なくともひとつの被抽出トピック1251の各抽出トピックに所属するように行われる。
また、スコア計算部1105が、図7に図示されるように、少なくともひとつの被抽出トピック1251に付属する複数の候補単語1260を含むサジェスト候補リスト1210を作成する。
図4に図示される、ステップS109に続くステップS110においては、スコア計算部1105が、入力単語1201とサジェスト候補リスト1210に含まれる複数の候補単語1260の各候補単語1261との関連度の強さを示す各候補単語1261のサジェストスコア1532を計算する。スコア計算部1105は、各候補単語1261のサジェストスコア1532の計算において、少なくともひとつの被抽出トピック1251において各候補単語1261が所属する少なくともひとつの所属トピック1252を特定する。少なくともひとつの所属トピック1252の特定は、各候補単語1261が少なくともひとつの所属トピック1252の各所属トピックに所属するように行われる。
また、スコア計算部1105が、少なくともひとつの所属トピック1252についてそれぞれ計算された各候補単語1261の少なくともひとつのスコア因子1205から各候補単語1261のサジェストスコア1532を計算する。
また、スコア計算部1105が、図7に図示されるように、各候補単語1261のサジェストスコア1532により示される関連度の強さの順でサジェスト候補リスト1210に含まれる複数の候補単語1260をソートしてサジェストワードリスト1207を作成する。
また、スコア計算部1105は、入力単語1201を入力したユーザーが属するユーザーグループについて計算された各候補単語1261の少なくともひとつのスコア因子1205から各候補単語1261のサジェストスコア1532を計算し、ユーザーが属するユーザーグループに固有のサジェストワードリスト1207を作成する。
図12は、第1実施形態のサジェスト生成装置において作成されるサジェストワードリストの例を図示する図である。
サジェストワードリスト1207には、トピックを特定する情報、候補単語及びサジェストスコアが互いに関連付けられた状態で格納される。図12に図示される例においては、例えば、「corpus0_1_1」というトピックID1550、「アプリ」というトピック語1551及び「4.675」というサジェストスコア1552が互いに関連付けられた状態で格納されている。トピックID1550は、トピックを特定する情報である。トピック語1551は、候補単語である。
図4に図示される、ステップS110に続くステップS111においては、提示部1106が、図7に図示されるように、サジェストワードリスト1207にしたがってサジェスト1208を生成する。サジェスト1208においては、サジェストワードリスト1207に含まれる複数の候補単語1260が各候補単語1261のサジェストスコア1532により示される関連度の強さの順で提示される。
4 サジェストスコアの第1の計算方法
図13は、第1実施形態のサジェスト生成装置における候補単語のサジェストスコアの、第1の計算方法による計算例を説明する図である。
第1の計算方法においては、スコア計算部1105が、図3に図示されるように、各抽出トピックに入力単語1201が所属するように複数のトピック1250から少なくともひとつの被抽出トピック1251を抽出する。図13に示される計算例においては、各被抽出トピックに「アプリ」という入力単語1600が所属するようにトピックk,l及びmという少なくともひとつの被抽出トピック1610が抽出されている。
また、スコア計算部1105が、図3に図示されるように、各所属トピックに候補単語1261が所属するように少なくともひとつの被抽出トピック1251において少なくともひとつの所属トピック1252を特定する。図13に示される計算例においては、各所属トピックに「バージョン」という候補単語1601が所属するようにトピックk及びmという少なくともひとつの所属トピック1611が特定されている。
また、スコア計算部1105が、少なくともひとつの所属トピック1252の各所属トピックについて、各所属トピックについて計算された入力単語1201のスコア因子1205と各所属トピックについて計算された候補単語1261のスコア因子1205との積を計算する。図13に図示される計算例においては、トピックkについて、トピックkについて計算された「アプリ」という入力単語1600の「31.2」という特徴度1620とトピックkについて計算された「バージョン」という候補単語1601の「15.4」という特徴度1621との「31.2×15.4=480.48」という積1622が計算され、トピックmについて、トピックmについて計算された「アプリ」という入力単語1600の「0.3」という特徴度1623とトピックmについて計算された「バージョン」という候補単語1601の「87.0」という特徴度1624との「0.3×87.0=26.1」という積1625が計算されている。
また、スコア計算部1105が、少なくともひとつの所属トピック1252についてそれぞれ計算された少なくともひとつの積の最大値から入力単語1201と候補単語1261との関連度の強さを示す候補単語1261のサジェストスコア1532を計算する。図13に示される計算例においては、トピックkについて計算された「31.2×15.4=480.48」という積1622及びトピックmについて計算された「0.3×87.0=26.1」という積1625の「480.48」という最大値1626が候補単語1601のサジェストスコア1627にされている。最大値1626に一致する候補単語1601のサジェストスコア1627に代えて最大値1626を因子として含む候補単語1601のサジェストスコア1627が計算されてもよい。例えば、最大値1626の定数倍に一致する候補単語1601のサジェストスコア1627が計算されてもよい。
第1の計算方法においては、一般的に言って、候補単語wordのサジェストスコアScore(word)は、少なくともひとつの所属トピックT(keyword,word)、トピックtについて計算された入力単語keywordの特徴度featurekeyword t及びトピックtについて計算された候補単語wordの特徴度featureword tを用いて、式(3)により計算される。
Figure 0006967412
第1の計算方法によれば、単語が所属するトピックを単語が特徴づける程度が強いことを示す大きな特徴度が候補単語1261のサジェストスコア1532に反映されやすく、単語が所属するトピックを単語が特徴づける程度が弱いことを示す小さな特徴度が候補単語1261のサジェストスコア1532に反映されにくい。
5 サジェストスコアの第2の計算方法
図14は、第1実施形態のサジェスト生成装置における候補単語のサジェストスコアの、第2の計算方法による計算例を説明する図である。
第2の計算方法においては、第1の計算方法と同じように、スコア計算部1105が、図3に図示されるように、複数のトピック1250から少なくともひとつの被抽出トピック1251を抽出し、少なくともひとつの被抽出トピック1251において少なくともひとつの所属トピック1252を特定し、各所属トピックについて、各所属トピックについて計算された入力単語1201のスコア因子1205と各所属トピックについて計算された候補単語1261のスコア因子1205との積を計算する。
第2の計算方法においては、スコア計算部1105が、少なくともひとつの所属トピック1252についてそれぞれ計算された少なくともひとつの積の積から入力単語1201と候補単語1261との関連度の強さを示す候補単語1261のサジェストスコア1532を計算する。図14に示される計算例においては、トピックkについて計算された「31.2×15.4=480.48」という積1622及びトピックmについて計算された「0.3×87.0=26.1」という積1625の「480.48×26.1=12540.528」という積1628が候補単語1601のサジェストスコア1629にされている。積1628に一致する候補単語1601のサジェストスコア1629に代えて積1628を因子として含む候補単語1601のサジェストスコア1629が計算されてもよい。例えば、積1628の定数倍に一致する候補単語1601のサジェストスコア1629が計算されてもよい。
第2の計算方法においては、一般的に言って、候補単語wordのサジェストスコアScore(word)は、少なくともひとつの所属トピックT(keyword,word)、トピックtについて計算された入力単語keywordの特徴度featurekeyword t及びトピックtについて計算された候補単語wordの特徴度featureword tを用いて、式(4)により計算される。
Figure 0006967412
第2の計算方法によれば、単語が所属するトピックを単語が特徴づける程度が強いことを示す大きな特徴度及び単語が所属するトピックを単語が特徴づける程度が弱いことを示す小さな特徴度のいずれも候補単語1261のサジェストスコア1532に反映される。
6 サジェストスコアの第3の計算方法
図15は、第1実施形態のサジェスト生成装置における候補単語のサジェストスコアの、第3の計算方法による計算例を説明する図である。
第3の計算方法においては、第1の計算方法と同じように、スコア計算部1105が、図3に図示されるように、複数のトピック1250から少なくともひとつの被抽出トピック1251を抽出し、少なくともひとつの被抽出トピック1251において少なくともひとつの所属トピック1252を特定する。
第3の計算方法においては、スコア計算部1105が、各所属トピックについて、各所属トピックについて計算された入力単語1201のスコア因子1205と各所属トピックについて計算された候補単語1261のスコア因子1205との積を計算する。図15に示される計算例においては、トピックkについて、トピックkについて計算された「アプリ」という入力単語1600の「31.2」という特徴度1620とトピックkについて計算された「バージョン」という候補単語1601の「0.025」というトピック内出現確率1630との「31.2×0.025=0.78」という積1631が計算され、トピックmについて、トピックmについて計算された「アプリ」という入力単語1600の「0.3」という特徴度1623とトピックmについて計算された「バージョン」という候補単語1601の「0.350」というトピック内出現確率1632との「0.3×0.350=0.105」という積1633が計算されている。
また、スコア計算部1105が、少なくともひとつの所属トピック1252についてそれぞれ計算された少なくともひとつの積の最大値から入力単語1201と候補単語1261との関連度の強さを示す候補単語1261のサジェストスコア1532を計算する。図15に示される計算例においては、トピックkについて計算された「31.2×0.025=0.78」という積1631及びトピックmについて計算された「0.3×0.350=0.105」という積1633の「31.2×0.025=0.78」という最大値1634が候補単語1601のサジェストスコア1635にされている。最大値1634に一致する候補単語1601のサジェストスコア1635に代えて最大値1634を因子として含む候補単語1601のサジェストスコア1635が計算されてもよい。例えば、最大値1634の定数倍に一致する候補単語1601のサジェストスコア1635が計算されてもよい。
第3の計算方法においては、一般的に言って、候補単語wordのサジェストスコアScore(word)は、少なくともひとつの所属トピックT(keyword,word)、トピックtについて計算された入力単語keywordの特徴度featurekeyword t及びトピックtについて計算された候補単語wordのトピック内出現確率probabilityword tを用いて、式(5)により計算される。
Figure 0006967412
第3の計算方法によれば、単語が所属するトピックを単語が特徴づける程度が強いことを示す大きな特徴度及び単語が所属するトピックにおける単語のトピック内出現確率が高いことを示す大きなトピック内出現確率が候補単語1261のサジェストスコア1532に反映されやすく、単語が所属するトピックを単語が特徴づける程度が弱いことを示す小さな特徴度及び単語が所属するトピックにおける単語のトピック内出現確率が低いことを示す小さなトピック内出現確率が候補単語1261のサジェストスコア1532に反映されにくい。
7 サジェストスコアの第4の計算方法
図16は、第1実施形態のサジェスト生成装置における候補単語のサジェストスコアの、第4の計算方法による計算例を説明する図である。
第4の計算方法においては、第1の計算方法と同じように、スコア計算部1105が、図3に図示されるように、複数のトピック1250から少なくともひとつの被抽出トピック1251を抽出し、少なくともひとつの被抽出トピック1251において少なくともひとつの所属トピック1252を特定する。
第4の計算方法においては、スコア計算部1105が、少なくともひとつの所属トピック1252についてそれぞれ計算された候補単語1261の少なくともひとつのスコア因子1205の最大値から入力単語1201と候補単語1261との関連度の強さを示す候補単語1261のサジェストスコア1532を計算する。図16に示される計算例においては、トピックkについて計算された「バージョン」という候補単語1601の「0.025」というトピック内出現確率1636及びトピックmについて計算された「バージョン」という候補単語1601の「0.350」というトピック内出現確率1637の「0.350」という最大値1638が候補単語1601のサジェストスコア1639にされている。最大値1638に一致する候補単語1601のサジェストスコア1639に代えて最大値1638を因子として含む候補単語1601のサジェストスコア1639が計算されてもよい。例えば、最大値1638の定数倍に一致する候補単語1601のサジェストスコア1639が計算されてもよい。
第4の計算方法においては、一般的に言って、候補単語wordのサジェストスコアScore(word)は、少なくともひとつの所属トピックT(keyword,word)及びトピックtについて計算された候補単語wordのトピック内出現確率probabilityword tを用いて、式(6)により計算される。
Figure 0006967412
第4の計算方法によれば、単語が所属するトピックにおける単語のトピック内出現確率が高いことを示す大きなトピック内出現確率が候補単語1261のサジェストスコア1532に反映されやすく、単語が所属するトピックにおける単語のトピック内出現確率が低いことを示す小さなトピック内出現確率が候補単語1261のサジェストスコア1532に反映されにくい。
8 各ユーザーグループについてのサジェストスコアの計算の別例
図17は、第1実施形態のサジェスト生成装置における各ユーザーグループについての各候補単語のサジェストスコアの計算アルゴリズムの別例を説明する図である。
当該別例においては、スコア計算部1105が、各トピック語のスコア因子1205から、入力単語1201と各候補単語1261との関連度の強さを示す加算前サジェストスコア1700を計算する。
また、スコア計算部1105が、各ユーザーグループについて、過去の検索において各ユーザーグループに属するユーザーにより使用された使用済単語を検索ログ1302及びユーザー管理テーブル1303から特定し、使用済単語の加算スコアを計算し、各候補単語1261の加算スコア1701を各候補単語1261の加算前サジェストスコア1700に加算することにより各候補単語1261のサジェストスコア1532を計算する。
9 画面の例
図18は、第1実施形態のサジェスト生成装置において表示される画面の例を図示する模式図である。
図18に図示される画面1800は、ディスプレイ1043に表示される。
画面1800は、検索に使用される入力単語1201の入力を受け付けるテキストボックス1820、検索の開始の指示を受け付けるボタン1821及びサジェスト1208を表示する領域1822を備える。テキストボックス1820及びボタン1821の各々が他の種類のグラフィカルユーザーインターフェース(GUI)部品に置き換えられてもよい。
図18に示される例においては、複数の候補単語1830が領域1822に同時に表示され、各候補単語1831のサジェストスコアにより示される関連度の強さの順に一致する配列順で複数の候補単語1830が配列される。1個の候補単語のみが表示され、表示される1個の候補単語が各候補単語1831のサジェストスコアにより示される関連度の強さの順に一致する時間順で切り替えられてもよい。
この発明は詳細に説明されたが、上記した説明は、すべての局面において、例示であって、この発明がそれに限定されるものではない。例示されていない無数の変形例が、この発明の範囲から外れることなく想定され得るものと解される。
1000 サジェスト生成装置
1020 サジェスト生成プログラム
1100 除去部
1101 形態素解析部
1102 トピック分類部
1103 スコア因子計算部
1104 特定部
1105 スコア計算部
1106 提示部
1107 記憶部
1200 検索又は分析の対象のテキスト(除去前テキスト)
1201 入力単語
1202 除去後テキスト
1203 形態素解析済テキスト
1204 少なくともひとつのトピック語
1205 各トピック語のスコア因子
1206 少なくともひとつの所属トピック語
1207 サジェストワードリスト
1208 サジェスト

Claims (16)

  1. テキストに対して形態素解析を行って前記テキストを複数の単語に分割し形態素解析済テキストを得る形態素解析部と、
    前記形態素解析済テキストに対してトピック分類を行って前記複数の単語から複数のトピックの各トピックに所属する少なくともひとつのトピック語を抽出するトピック分類部と、
    前記少なくともひとつのトピック語の各トピック語が所属するトピックについて、前記各トピック語が所属するトピックを前記各トピック語が特徴づける程度を示す特徴度及び前記各トピック語が所属するトピックにおける前記各トピック語のトピック内出現確率の少なくとも一方を示す前記各トピック語のスコア因子を計算するスコア因子計算部と、
    前記各トピックに所属し前記少なくともひとつのトピック語の少なくとも一部を含む少なくともひとつの所属トピック語を特定する特定部と、
    各被抽出トピックに入力単語が所属するように前記複数のトピックから少なくともひとつの被抽出トピックを抽出し、前記入力単語と前記少なくともひとつの被抽出トピックに所属する複数の候補単語の各候補単語との関連度の強さを示す前記各候補単語のスコアの計算を行い、前記計算において、各所属トピックに前記各候補単語が所属するように前記少なくともひとつの被抽出トピックにおける少なくともひとつの所属トピックを特定し、前記少なくともひとつの所属トピックについてそれぞれ計算された前記各候補単語の少なくともひとつのスコア因子から前記各候補単語のスコアを計算するスコア計算部と、
    前記各候補単語のスコアにより示される関連度の強さの順で前記複数の候補単語を提示する提示部と、
    を備えるサジェスト生成装置。
  2. 除去前テキストからストップワードを除去し前記テキストを得る除去部をさらに備える
    請求項1のサジェスト生成装置。
  3. 複合語が登録された強制抽出語辞書を記憶する記憶部をさらに備え、
    前記形態素解析部は、前記複数の単語が前記複合語を含むように前記テキストを分割する
    請求項1又は2のサジェスト生成装置。
  4. 過去の検索において使用された単語が記録された検索ログを記憶する記憶部をさらに備え、
    前記スコア因子計算部は、
    前記各トピック語が所属するトピックを前記各トピック語が特徴づける程度を示す特徴度及び前記各トピック語が所属するトピックにおける前記各トピック語のトピック内出現確率の少なくとも一方を示す前記各トピック語の加算前スコア因子を計算し、
    各ユーザーグループについて、前記過去の検索において前記各ユーザーグループに所属するユーザーにより使用された使用済単語を前記検索ログから特定し、前記使用済単語が所属するトピックの加算スコア因子を計算し、前記各トピック語が所属するトピックの加算スコア因子を前記各トピック語の加算前スコア因子に加算することにより前記各トピック語のスコア因子を計算し、
    前記スコア計算部は、
    前記入力単語を入力したユーザーが属するユーザーグループについて計算された前記各候補単語の少なくともひとつのスコア因子から前記各候補単語のスコアを計算する
    請求項1から3までのいずれかのサジェスト生成装置。
  5. 前記各トピック語のスコア因子は、前記各トピック語が所属するトピックを前記各トピック語が特徴づける程度を示す特徴度を示し、
    前記各トピック語が所属するトピックを前記各トピック語が特徴づける程度を示す特徴度は、前記各トピック語が所属するトピックにおける前記各トピック語のトピック内出現確率を前記テキストにおける前記各トピック語の出現頻度で除することにより得られる
    請求項1から4までのいずれかのサジェスト生成装置。
  6. 過去の検索において使用された単語が記録された検索ログを記憶する記憶部をさらに備え、
    前記特定部は、設定回数より多い回数にわたって前記過去の検索において使用されたが前記少なくともひとつのトピック語に含まれない未抽出単語を前記検索ログから特定し、前記少なくともひとつの所属トピック語が前記未抽出単語を含むように前記少なくともひとつの所属トピック語を特定する
    請求項1から5までのいずれかのサジェスト生成装置。
  7. 除外語が登録された除外語辞書を記憶する記憶部をさらに備え、
    前記特定部は、前記少なくともひとつの所属トピック語が前記除外語を含まないように前記少なくともひとつの所属トピック語を特定する
    請求項1から6までのいずれかのサジェスト生成装置。
  8. 前記スコア計算部は、
    前記各所属トピックについて、前記各所属トピックについて計算された前記入力単語のスコア因子と前記各所属トピックについて計算された前記各候補単語のスコア因子との積を計算し、
    前記少なくともひとつの所属トピックについてそれぞれ計算された少なくともひとつの積の最大値から前記各候補単語のスコアを計算する
    請求項1から7までのいずれかのサジェスト生成装置。
  9. 前記スコア計算部は、
    前記各所属トピックについて、前記各所属トピックについて計算された前記入力単語のスコア因子と前記各所属トピックについて計算された前記各候補単語のスコア因子との積を計算し、
    前記少なくともひとつの所属トピックについてそれぞれ計算された少なくともひとつの積の積から前記各候補単語のスコアを計算する
    請求項1から7までのいずれかのサジェスト生成装置。
  10. 前記各所属トピックについて計算された前記入力単語のスコア因子は、前記入力単語が前記各所属トピックを特徴づける程度を示す特徴度を示し、
    前記各所属トピックについて計算された前記各候補単語のスコア因子は、前記各候補単語が前記各所属トピックを特徴づける程度を示す特徴度を示す
    請求項8又は9のサジェスト生成装置。
  11. 前記各所属トピックについて計算された前記入力単語のスコア因子は、前記入力単語が前記各所属トピックを特徴づける程度を示す特徴度を示し、
    前記各所属トピックについて計算された前記各候補単語のスコア因子は、前記各所属トピックにおける前記各候補単語のトピック内出現確率を示す
    請求項8又は9のサジェスト生成装置。
  12. 前記スコア計算部は、
    前記少なくともひとつの所属トピックについてそれぞれ計算された前記各候補単語の少なくともひとつのスコア因子の最大値から前記各候補単語のスコアを計算する
    請求項1から7までのいずれかのサジェスト生成装置。
  13. 前記各所属トピックについて計算された前記各候補単語のスコア因子は、前記各所属トピックにおける前記各候補単語のトピック内出現確率である
    請求項12のサジェスト生成装置。
  14. 過去の検索において使用された単語が記録された検索ログを記憶する記憶部をさらに備え、
    前記スコア計算部は、
    前記入力単語と前記各候補単語との関連度の強さを示す前記各候補単語の加算前スコアを計算し、
    各ユーザーグループについて、前記過去の検索において前記各ユーザーグループに属するユーザーにより使用された使用済単語を前記検索ログから特定し、前記使用済単語の加算スコアを計算し、前記各候補単語の加算スコアを前記各候補単語の加算前スコアに加算することにより前記各候補単語のスコアを計算する
    請求項1から13までのいずれかのサジェスト生成装置。
  15. a) テキストに対して形態素解析を行って前記テキストを複数の単語に分割し形態素解析済テキストを得る工程と、
    b) 前記形態素解析済テキストに対してトピック分類を行って前記複数の単語から複数のトピックの各トピックに所属する少なくともひとつのトピック語を抽出する工程と、
    c) 前記少なくともひとつのトピック語の各トピック語が所属するトピックについて、前記各トピック語が所属するトピックを前記各トピック語が特徴づける程度を示す特徴度及び前記各トピック語が所属するトピックにおける前記各トピック語のトピック内出現確率の少なくとも一方を示す前記各トピック語のスコア因子を計算する工程と、
    d) 前記各トピックに所属し前記少なくともひとつのトピック語の少なくとも一部を含む少なくともひとつの所属トピック語を特定する工程と、
    e) 各被抽出トピックに入力単語が所属するように前記複数のトピックから少なくともひとつの被抽出トピックを抽出し、前記入力単語と前記少なくともひとつの被抽出トピックに所属する複数の候補単語の各候補単語との関連度の強さを示す前記各候補単語のスコアの計算を行い、前記計算において、各所属トピックに前記各候補単語が所属するように前記少なくともひとつの被抽出トピックにおける少なくともひとつの所属トピックを特定し、前記少なくともひとつの所属トピックについてそれぞれ計算された前記各候補単語の少なくともひとつのスコア因子から前記各候補単語のスコアを計算する工程と、
    f) 前記各候補単語のスコアにより示される関連度の強さの順で前記複数の候補単語を提示する工程と、
    をコンピューターに実行させるサジェスト生成プログラム。
  16. a) テキストに対して形態素解析を行って前記テキストを複数の単語に分割し形態素解析済テキストを得る工程と、
    b) 前記形態素解析済テキストに対してトピック分類を行って前記複数の単語から複数のトピックの各トピックに所属する少なくともひとつのトピック語を抽出する工程と、
    c) 前記少なくともひとつのトピック語の各トピック語が所属するトピックについて、前記各トピック語が所属するトピックを前記各トピック語が特徴づける程度を示す特徴度及び前記各トピック語が所属するトピックにおける前記各トピック語のトピック内出現確率の少なくとも一方を示す前記各トピック語のスコア因子を計算する工程と、
    d) 前記各トピックに所属し前記少なくともひとつのトピック語の少なくとも一部を含む少なくともひとつの所属トピック語を特定する工程と、
    e) 各被抽出トピックに入力単語が所属するように前記複数のトピックから少なくともひとつの被抽出トピックを抽出し、前記入力単語と前記少なくともひとつの被抽出トピックに所属する複数の候補単語の各候補単語との関連度の強さを示す前記各候補単語のスコアの計算を行い、前記計算において、各所属トピックに前記各候補単語が所属するように前記少なくともひとつの被抽出トピックにおける少なくともひとつの所属トピックを特定し、前記少なくともひとつの所属トピックについてそれぞれ計算された前記各候補単語の少なくともひとつのスコア因子から前記各候補単語のスコアを計算する工程と、
    f) 前記各候補単語のスコアにより示される関連度の強さの順で前記複数の候補単語を提示する工程と、
    を備え、ソフトウェアの制御によってコンピュータが行う情報処理方法としてのサジェスト生成方法。
JP2017180015A 2017-09-20 2017-09-20 サジェスト生成装置、サジェスト生成プログラム及びサジェスト生成方法 Active JP6967412B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017180015A JP6967412B2 (ja) 2017-09-20 2017-09-20 サジェスト生成装置、サジェスト生成プログラム及びサジェスト生成方法
PCT/JP2018/024841 WO2019058698A1 (ja) 2017-09-20 2018-06-29 サジェスト生成装置、サジェスト生成プログラム及びサジェスト生成方法
TW107126176A TWI703453B (zh) 2017-09-20 2018-07-27 建議詞語生成裝置、記錄有建議詞語生成程式之電腦可讀取之記錄媒體及建議詞語生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017180015A JP6967412B2 (ja) 2017-09-20 2017-09-20 サジェスト生成装置、サジェスト生成プログラム及びサジェスト生成方法

Publications (2)

Publication Number Publication Date
JP2019057017A JP2019057017A (ja) 2019-04-11
JP6967412B2 true JP6967412B2 (ja) 2021-11-17

Family

ID=65811318

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017180015A Active JP6967412B2 (ja) 2017-09-20 2017-09-20 サジェスト生成装置、サジェスト生成プログラム及びサジェスト生成方法

Country Status (3)

Country Link
JP (1) JP6967412B2 (ja)
TW (1) TWI703453B (ja)
WO (1) WO2019058698A1 (ja)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3230868B2 (ja) * 1992-12-28 2001-11-19 株式会社リコー 音声合成装置
WO2006113506A2 (en) * 2005-04-15 2006-10-26 Perfect Market Technologies, Inc. Search engine with suggestion tool and method of using same
US20070192318A1 (en) * 2005-09-14 2007-08-16 Jorey Ramer Creation of a mobile search suggestion dictionary
JP4869292B2 (ja) * 2008-06-20 2012-02-08 ヤフー株式会社 検索キーワードを推薦するサーバ、方法、およびプログラム
JP5311378B2 (ja) * 2008-06-26 2013-10-09 国立大学法人京都大学 特徴語自動学習システム、コンテンツ連動型広告配信コンピュータシステム、検索連動型広告配信コンピュータシステム、およびテキスト分類コンピュータシステム、並びにこれらのコンピュータプログラムおよび方法
JP5338835B2 (ja) * 2011-03-24 2013-11-13 カシオ計算機株式会社 類義語リストの生成方法および生成装置、当該類義語リストを用いた検索方法および検索装置、ならびに、コンピュータプログラム
JP5558539B2 (ja) * 2012-09-24 2014-07-23 ヤフー株式会社 検索システム、検索方法およびプログラム
CN105095204B (zh) * 2014-04-17 2018-12-14 阿里巴巴集团控股有限公司 同义词的获取方法及装置
JP6470636B2 (ja) * 2015-06-04 2019-02-13 キヤノン株式会社 情報処理装置、その制御方法、及びプログラム

Also Published As

Publication number Publication date
WO2019058698A1 (ja) 2019-03-28
TWI703453B (zh) 2020-09-01
JP2019057017A (ja) 2019-04-11
TW201915785A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
WO2019049483A1 (ja) 同義語辞書作成装置、同義語辞書作成プログラム及び同義語辞書作成方法
JP4233836B2 (ja) 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム
US9881037B2 (en) Method for systematic mass normalization of titles
AU2015203818B2 (en) Providing contextual information associated with a source document using information from external reference documents
US8886661B2 (en) Information extraction system, information extraction method, information extraction program, and information service system
RU2547213C2 (ru) Присвоение применимых на практике атрибутов данных, которые описывают идентичность личности
US10353925B2 (en) Document classification device, document classification method, and computer readable medium
JP4595692B2 (ja) 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体
KR20070089449A (ko) 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.
JP2014106665A (ja) 文書検索装置、文書検索方法
JP2014010758A (ja) ファイル管理装置、ファイル管理方法、及びプログラム
CN112395881B (zh) 物料标签的构建方法、装置、可读存储介质及电子设备
JP7110554B2 (ja) オントロジー生成装置、オントロジー生成プログラム及びオントロジー生成方法
JP3583631B2 (ja) 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体
JP5138621B2 (ja) 情報処理装置及び不満解決商品発見方法及びプログラム
JP6967412B2 (ja) サジェスト生成装置、サジェスト生成プログラム及びサジェスト生成方法
JP4525433B2 (ja) 文書集約装置及びプログラム
JP4569179B2 (ja) ドキュメント検索装置
JP5679400B2 (ja) カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
CN115129864A (zh) 文本分类方法、装置、计算机设备和存储介质
JP2019133367A (ja) 営業支援装置及び方法
CN113919352A (zh) 数据库敏感数据识别方法及装置
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
JP7488207B2 (ja) 将来事象推定システム、および将来事象推定方法
KR102649622B1 (ko) 브랜드 평판 분석 서비스를 제공하기 위한 방법, 컴퓨터 장치, 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210713

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210909

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210928

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211025

R150 Certificate of patent or registration of utility model

Ref document number: 6967412

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150