JP6967412B2

JP6967412B2 - サジェスト生成装置、サジェスト生成プログラム及びサジェスト生成方法

Info

Publication number: JP6967412B2
Application number: JP2017180015A
Authority: JP
Inventors: 明子吉田; 清孝粕渕; 隆夫吉和
Original assignee: Screen Holdings Co Ltd
Current assignee: Screen Holdings Co Ltd
Priority date: 2017-09-20
Filing date: 2017-09-20
Publication date: 2021-11-17
Anticipated expiration: 2037-09-20
Also published as: WO2019058698A1; TWI703453B; JP2019057017A; TW201915785A

Description

本発明は、入力単語と関連する単語を提示するサジェスト生成装置、サジェスト生成プログラム及びサジェスト生成方法に関する。

テキストが作成される場合又はテキストに対して検索が行われる場合に、入力単語と関連する単語を提示するサジェストが生成される。

サジェストの生成は、ユーザーの検索履歴から単語を抽出し、抽出した単語を表示することにより行われる場合もあるし、検索を行うテキストから入力単語を含むテキストを抽出し、抽出したテキストから単語をさらに抽出し、抽出した単語を表示することにより行われる場合もある。特許文献１及び２に記載された技術は、前者の例であり、特許文献３に記載された技術は、後者の例である。

特許文献１に記載された技術においては、検索クエリの履歴が検索クエリ候補として記憶され、記憶された検索クエリ候補の中でユーザー属性に適合する検索クエリ候補が提示される（段落００３１及び００３２）。

特許文献２に記載された技術においては、検索ログデータベースから検索クエリと再検索クエリとの組み合わせが抽出され、抽出された組み合わせについて検索クエリと再検索クエリとの間の関連度を示すスコアが算出され、受信された検索クエリに対応する再検索クエリからスコアの高い順に所定数の再検索クエリがサジェスチョンクエリとして抽出される（段落００２６，００３０及び００３４）。また、検索クエリと再検索クエリとの共起率が算出され、共起率が所定以上である場合に組み合わせが除外される（段落００２７及び００２９）。

特許文献３に記載された技術においては、検索対象の文書データファイル群の中から指定されたキーワードを含む文書データファイルが検索され、検索されたキーワードを含む文書データファイルの中から指定キーワードを含む文書単位が取り出され、単語が抽出され、抽出された単語を時間順に配置した単語関係データが作成され、作成された単語関係データの単語リストが合成されて文書作成時間の順に従って表示される（段落００４０）。

特開２０１５−１０６３５４号公報特開２０１２−１６８８４４号公報特開平９−２５９１３３号公報

しかし、従来のサジェストの生成には、入力単語と関連する単語を提示できない場合があるという問題がある。

例えば、特許文献１に記載された技術においては、検索クエリの履歴から検索クエリ候補が生成されるため、ユーザーが、検索クエリと関連する検索クエリを知らず、当該検索クエリを過去の検索において使用していない場合は、検索クエリと関連する検索クエリ候補を提示できない。

同様に、特許文献２に記載された技術においては、検索ログデータベースからサジェスチョンクエリが生成されるため、ユーザーが、検索クエリと関連する検索クエリを知らず、当該検索クエリを過去の検索において使用していない場合は、検索クエリと関連するサジェスチョンクエリを提示できない。

また、特許文献３に記載された技術においては、検索対象の文書データファイル群から表示される単語リストが生成されるが、そのようにして生成される単語リストがキーワードと関連する単語を含むとは限らない。

本発明は、上記の問題を解決するためになされる。本発明が解決しようとする課題は、高い精度で入力単語と関連する単語を提示するサジェスト生成装置、サジェスト生成方法及びサジェスト生成プログラムを提供することである。

サジェストの生成において、テキストに対して形態素解析が行われ、テキストが複数の単語に分割され、形態素解析済テキストが得られる。

形態素解析済テキストに対してトピック分類が行われ、複数の単語から複数のトピックの各トピックに所属する少なくともひとつのトピック語が抽出される。

少なくともひとつのトピック語の各トピック語が所属するトピックについて、各トピック語のスコア因子が計算される。各トピック語のスコア因子は、各トピック語が所属するトピックを各トピック語が特徴づける程度を示す特徴度及び各トピック語が所属するトピックにおける各トピック語のトピック内出現確率の少なくとも一方を示す。

各トピックに所属する少なくともひとつの所属トピック語が特定される。少なくともひとつの所属トピック語は、抽出された少なくともひとつのトピック語の少なくとも一部を含む。

複数のトピックから少なくともひとつの被抽出トピックが抽出される。少なくともひとつの被抽出トピックの抽出は、少なくともひとつの被抽出トピックの各被抽出トピックに入力単語が所属するように行われる。

入力単語と少なくともひとつの被抽出トピックに所属する複数の候補単語の各候補単語との関連度の強さを示す各候補単語のスコアが計算される。

各候補単語のスコアの計算においては、少なくともひとつの被抽出トピックにおいて少なくともひとつの所属トピックが特定される。少なくともひとつの所属トピックの特定は、少なくともひとつの所属トピックの各所属トピックに各候補単語が所属するように行われる。

少なくともひとつの所属トピックについてそれぞれ計算された各候補単語の少なくともひとつのスコア因子から各候補単語のスコアが計算される。

各候補単語のスコアにより示される関連度の強さの順で複数の候補単語が提示される。

本発明によれば、テキストからトピック分類を経て提示される単語が抽出されるため、高い精度で入力単語に関連する単語を提示するサジェスト生成装置、サジェスト生成方法及びサジェスト生成プログラムが提供される。

この発明の目的、特徴、局面、及び利点は、以下の詳細な説明と添付図面とによって、より明白となる。

第１実施形態のサジェスト生成装置のハードウェア構成を図示するブロック図である。第１実施形態のサジェスト生成装置の機能的構成を図示するブロック図である。第１実施形態のサジェスト生成装置において行われる複数のトピックに対する処理を説明する図である。第１実施形態のサジェスト生成装置が行う処理の流れを図示するフローチャートである。第１実施形態のサジェスト生成装置におけるデータの変遷の例を図示する図である。第１実施形態のサジェスト生成装置におけるデータの変遷の例を図示する図である。第１実施形態のサジェスト生成装置におけるデータの変遷の例を図示する図である。第１実施形態のサジェスト生成装置における各ユーザーグループについてのサジェストスコアの計算アルゴリズムを説明する図である。第１実施形態のサジェスト生成装置に記憶される検索ログの例を図示する図である。第１実施形態のサジェスト生成装置に記憶されるユーザー管理テーブルの例を図示する図である。第１実施形態のサジェスト生成装置において計算される加算スコア因子テーブルの例を図示する図である。第１実施形態のサジェスト生成装置において作成されるサジェストワードリストの例を図示する図である。第１実施形態のサジェスト生成装置における各候補単語のサジェストスコアの、第１の計算方法による計算例を説明する図である。第１実施形態のサジェスト生成装置における各候補単語のサジェストスコアの、第２の計算方法による計算例を説明する図である。第１実施形態のサジェスト生成装置における各候補単語のサジェストスコアの、第３の計算方法による計算例を説明する図である。第１実施形態のサジェスト生成装置における各候補単語のサジェストスコアの、第４の計算方法による計算例を説明する図である。第１実施形態のサジェスト生成装置における各ユーザーグループについての各候補単語のサジェストスコアの計算アルゴリズムの別例を説明する図である。第１実施形態のサジェスト生成装置において表示される画面の例を図示する模式図である。

１ハードウェア構成
図１は、第１実施形態のサジェスト生成装置のハードウェア構成を図示するブロック図である。

図１に図示されるサジェスト生成装置１０００は、サジェスト生成プログラム１０２０がインストールされたパーソナルコンピューター（ＰＣ）であり、中央処理装置（ＣＰＵ）１０４０、メモリー１０４１、ハードディスクドライブ１０４２及びディスプレイ１０４３を備える。サジェスト生成装置１０００がこれらの構成物以外の構成物を備えてもよい。

サジェスト生成装置１０００においては、サジェスト生成プログラム１０２０がハードディスクドライブ１０４２にインストールされる。サジェスト生成プログラム１０２０のインストールは、コンパクトディスク（ＣＤ）、デジタル多目的ディスク（ＤＶＤ）、ユニバーサルシリアルバス（ＵＳＢ）メモリー等の外部記憶媒体１０６０から読み出したデータをハードディスクドライブ１０４２に書き込むことにより行われてもよいし、ネットワーク１０８０を経由して受信したデータをハードディスクドライブ１０４２に書き込むことにより行われてもよい。ハードディスクドライブ１０４２が他の種類の補助記憶装置に置き換えられてもよい。例えば、ハードディスクドライブ１０４２がソリッドステートドライブ、ランダムアクセスメモリー（ＲＡＭ）ディスク等に置き換えられてもよい。

サジェスト生成装置１０００においては、ハードディスクドライブ１０４２にインストールされたサジェスト生成プログラム１０２０がメモリー１０４１にロードされ、ロードされたサジェスト生成プログラム１０２０がＣＰＵ１０４０により実行されることにより、ＰＣがサジェスト生成プログラム１０２０を実行しサジェスト生成装置１０００として機能する。

２機能的構成
図２は、第１実施形態のサジェスト生成装置の機能的構成を図示するブロック図である。図３は、第１実施形態のサジェスト生成装置において行われる複数のトピックに対する処理を説明する図である。

サジェスト生成装置１０００は、図２に図示されるように、除去部１１００、形態素解析部１１０１、トピック分類部１１０２、スコア因子計算部１１０３、特定部１１０４、スコア計算部１１０５、提示部１１０６及び記憶部１１０７を備え、検索又は分析の対象のテキスト１２００及び入力単語１２０１からサジェスト１２０８を生成する。記憶部１１０７は、強制抽出語辞書１３００、除外語辞書１３０１、検索ログ１３０２及びユーザー管理テーブル１３０３を記憶する。サジェスト生成装置１０００がこれらの構成物以外の構成物を備えてもよい。入力単語１２０１は、検索において使用される検索語であってもよいし、新たなテキストの作成のために入力される単語であってもよい。サジェスト１２０８は、入力単語１２０１と関連する単語の提示である。

除去部１１００、形態素解析部１１０１、トピック分類部１１０２、スコア因子計算部１１０３、特定部１１０４、スコア計算部１１０５及び提示部１１０６は、ＰＣにサジェスト生成プログラム１０２０を実行させることにより構成される。記憶部１１０７は、メモリー１０４１及びハードディスクドライブ１０４２の少なくとも一方により構成される。

ＣＰＵ１０４０が行う処理の全部又は一部がＣＰＵ１０４０以外の処理装置により行われてもよい。例えば、ＣＰＵ１０４０により行われる処理の全部又は一部がグラフィックス処理装置（ＧＰＵ）により行われてもよい。ＣＰＵ１０４０により行われる処理の全部又は一部がプログラムを実行しないハードウェアにより行われてもよい。

除去部１１００は、ストップワードが除去されていない除去前テキスト１２００からストップワードを除去してストップワードが除去された除去後テキスト１２０２を得る。検索又は分析の対象のテキスト１２００がストップワードを含まない場合等のストップワードの除去が不要である場合は、除去部１１００が省略されてもよい。

形態素解析部１１０１は、除去後テキスト１２０２に対して形態素解析を行って除去後テキスト１２０２を複数の単語に分割し、分割により得られる複数の単語を含む形態素解析済テキスト１２０３を得る。形態素解析部１１０１は、除去後テキスト１２０２に対する形態素解析において、強制抽出語辞書１３００を使用する。強制抽出語辞書１３００の使用が省略されてもよい。

トピック分類部１１０２は、形態素解析済テキスト１２０３に対してトピック分類を行って形態素解析済テキスト１２０３に含まれる複数の単語から複数のトピックの各トピックに所属する少なくともひとつのトピック語１２０４を抽出する。

スコア因子計算部１１０３は、トピック分類部１１０２により抽出された少なくともひとつのトピック語１２０４の各トピック語が所属するトピックについて、各トピック語のスコア因子１２０５を計算する。各トピック語のスコア因子１２０５は、各トピック語が所属するトピックを各トピック語が特徴づける程度を示す特徴度及び各トピック語が所属するトピックにおける各トピック語のトピック内出現確率の少なくとも一方を示す。各トピック語のスコア因子１２０５は、後述する候補単語のサジェストスコアに含まれる因子となりうる。

特定部１１０４は、図３に図示されるように、複数のトピック１２５０の各トピックに属する少なくともひとつの所属トピック語１２０６を特定する。各トピックに属する少なくともひとつの所属トピック語１２０６は、トピック分類部１１０２により抽出された各トピックに属する少なくともひとつのトピック語１２０４の少なくとも一部を含む。特定部１１０４は、図２に図示されるように、各トピックに属する少なくともひとつの所属トピック語１２０６の特定において、検索ログ１３０２及び除外語辞書１３０１を使用する。これにより、各トピックに属する少なくともひとつの所属トピック語１２０６が、各トピックに属する少なくともひとつのトピック語１２０４の少なくとも一部を含み、各トピックに属する少なくともひとつのトピック語１２０４に含まれない未抽出単語を含む。検索ログ１３０２及び除外語辞書１３０１の少なくとも一方の使用が省略されてもよい。検索ログ１３０２の使用が省略された場合は、各トピックに属する少なくともひとつの所属トピック語１２０６が、各トピックに属する少なくともひとつのトピック語１２０４に含まれない未抽出単語を含まない。除外語辞書１３０１の使用が省略された場合は、各トピックに属する少なくともひとつの所属トピック語１２０６が、各トピックに属する少なくともひとつのトピック語１２０４の全部を含む。

スコア計算部１１０５は、図３に図示されるように、複数のトピック１２５０から、入力単語１２０１が所属する少なくともひとつの被抽出トピック１２５１を抽出する。少なくともひとつの被抽出トピック１２５１の抽出は、少なくともひとつの被抽出トピック１２５１の各抽出トピックに入力単語１２０１が所属するように行われる。少なくともひとつの被抽出トピック１２５１に所属する複数の単語は、サジェスト１２０８の生成において提示される可能性がある複数の候補単語１２６０となる。

スコア計算部１１０５は、入力単語１２０１と複数の候補単語１２６０の各候補単語１２６１との関連度の強さを示す各候補単語１２６１のサジェストスコアを計算する。スコア計算部１１０５は、各候補単語１２６１のサジェストスコアの計算において、少なくともひとつの被抽出トピック１２５１において各候補単語１２６１が所属する少なくともひとつの所属トピック１２５２を特定する。少なくともひとつの所属トピック１２５２の特定は、少なくともひとつの所属トピック１２５２の各所属トピックに各候補単語１２６１が所属するように行われる。

スコア計算部１１０５は、少なくともひとつの所属トピック１２５２についてそれぞれ計算された各候補単語１２６１の少なくともひとつのスコア因子から各候補単語１２６１のサジェストスコアを計算する。

スコア計算部１１０５は、図２に図示されるように、各候補単語１２６１のサジェストスコアにより示される関連度の強さの順で複数の候補単語１２６０をソートしてサジェストワードリスト１２０７を作成する。スコア計算部１１０５は、サジェストワードリスト１２０７の作成において、検索ログ１３０２及びユーザー管理テーブル１３０３を使用し、各ユーザーグループについて各ユーザーグループに固有のサジェストワードリスト１２０７を作成する。

提示部１１０６は、サジェストワードリスト１２０７にしたがってサジェスト１２０８を生成する。サジェスト１２０８においては、サジェストワードリスト１２０７に含まれる複数の候補単語１２６０が各候補単語１２６１のサジェストスコアにより示される関連度の強さの順で提示される。

サジェスト生成装置１０００によれば、検索又は分析の対象のテキスト１２００及び入力単語１２０１からサジェスト１２０８が生成されるので、テキスト１２００が存在する場合は、検索ログ１３０２等の検索履歴が存在しない場合又は検索ログ１３０２等の検索履歴が不十分である場合においても、サジェスト１２０８が自動的に生成され、入力単語１２０１と関連する単語が自動的に提示される。また、サジェスト生成装置１０００によれば、提示される単語が、テキスト１２００から単純に抽出された単語ではなく、テキスト１２００からトピック分類を経て抽出された単語であるため、高い精度を有するサジェスト１２０８が生成される。

３処理及びデータの変遷の例
図４は、第１実施形態のサジェスト生成装置が行う処理の流れを図示するフローチャートである。図５、図６及び図７は、第１実施形態のサジェスト生成装置におけるデータの変遷の例を図示する図である。

図４に図示されるステップＳ１０１においては、除去部１１００が、検索又は分析の対象のテキスト１２００からストップワードを除去して除去後テキスト１２０２を得る。検索又は分析の対象のテキスト１２００は、過去に作成されたテキスト等である。除去されるストップワードは、以降の解析に不要なノイズとなる単語である。ストップワードとして除去される単語は、テキスト１２００の具体的内容を表現しない識別符号等である。「http://」等の様々なＵＲＬに共通して含まれる文字列もストップワードとして除去される。図５に図示される例においては、「R000003」というテキスト要素１４００、「開発工程カスタマイズ」というテキスト要素１４０１、「マスターデータ(ユーザー、プロジェクト、製品、・・・」というテキスト要素１４０２、「R000002」というテキスト要素１４０３、「予測式登録時の工程割合の・・・」というテキスト要素１４０４及び「工程割合の入力は小数点第2位まで入力可能に…」というテキスト要素１４０５がテキスト１２００に含まれ、テキスト要素１４００及び１４０３がストップワードとして除去されている。

図４に図示される、ステップＳ１０１に続くステップＳ１０２においては、形態素解析部１１０１が、除去後テキスト１２０２に対して形態素解析を行って除去後テキスト１２０２を複数の単語に分割し、分割により得られる複数の単語を含む形態素解析済テキスト１２０３を得る。図５に図示される例においては、テキスト要素１４０１が「開発工程」及び「カスタマイズ」という複数の単語１４１１に分割され、テキスト要素１４０２が「マスターデータ」、「ユーザー」、「プロジェクト」、「製品」等という複数の単語１４１２に分割され、テキスト要素１４０４が「予測式」、「登録」、「時」、「の」、「工程」、「割合」、「の」等という複数の単語１４１４に分割され、テキスト要素１４０５が「工程」、「割合」、「の」、「入力」、「は」、「小数点」、「第2位」、「まで」、「入力」、「可能」、「に」等という複数の単語１４１５に分割されている。

形態素解析部１１０１は、２個以上の形態素からなる複合語である専門用語が登録された強制抽出語辞書１３００を使用して強制抽出語辞書１３００に登録された専門用語を除去後テキスト１２０２から強制的に抽出し、形態素解析済テキスト１２０３に含まれる複数の単語が抽出された専門単語を含むように除去後テキスト１２０２を複数の単語に分割する。これにより、複合語である専門用語が分割されずに正常に抽出される。図５に示される例においては、「マスターデータ」という専門用語１４１６及び「予測式」という専門用語１４１７が強制的に抽出されている。

図４に図示される、ステップＳ１０２に続くステップＳ１０３においては、トピック分類部１１０２が、形態素解析済テキスト１２０３に対してトピック分類を行って複数の単語から複数のトピック１２５０の各トピックに属する少なくともひとつのトピック語１２０４を抽出する。トピック分類とは、入力されたテキストにおいて扱われているトピックを推定し、入力されたテキストを構成する文章を複数のトピックに分類することである。トピックは、話題、分野等の概略の意味を示す。図６に図示される例においては、トピックNo.「0」が付与されたトピックに属する「アプリ」、「バージョン」、「開発」及び「仕様」という複数のトピック語１４２０が抽出され、トピックNo.「1」が付与されたトピックに属する「テスト」、「デバッグ」、「単体」及び「管理」という複数のトピック語１４２１が抽出され、トピックNo.「2」が付与されたトピックに属する「ソフト」、「対応」、「期日」及び「確認」という複数のトピック語１４２２が抽出され、トピックNo.「3」が付与されたトピックに属する「設計」、「ユースケース」、「ボタン」及び「配置」という複数のトピック語１４２３が抽出され、トピックNo.「4」が付与されたトピックに属する「リリース」、「対応」、「ノート」及び「準備」という複数のトピック語１４２４が抽出され、トピックNo.「5」が付与されたトピックに属する「問い合わせ」、「受ける」、「回答」及び「記述」という複数のトピック語１４２５が抽出され、トピックNo.「6」が付与されたトピックに属する「顧客」、「ヒアリング」、「主要求」及び「副要求」という複数のトピック語１４２６が抽出されている。

図４に図示される、ステップＳ１０３に続くステップＳ１０４においては、スコア因子計算部１１０３が、トピック分類部１１０２により抽出された少なくともひとつのトピック語１２０４の各トピック語が所属するトピックについて、各トピック語のスコア因子を計算する。各トピック語のスコア因子は、各トピック語が所属するトピックを各トピック語が特徴づける程度を示す特徴度及び各トピックが所属するトピックにおける各トピック語のトピック内出現確率の少なくとも一方を示す。図６に図示される例においては、トピックID「corpus1_0_0」が付与されたトピックについて、「アプリ」というトピック語１４３０の「4.675」という特徴度１４４０及び「11.21%」というトピック内出現確率１４５０が計算され、「デバッグ」というトピック語１４３１の「4.435」という特徴度１４４１及び「5.00%」というトピック内出現確率１４５１が計算され、「単体」というトピック語１４３２の「3.599」という特徴度１４４２及び「4.30%」というトピック内出現確率１４５２が計算され、「言語」というトピック語１４３３の「3.199」という特徴度１４４３及び「3.40%」というトピック内出現確率１４５３が計算され、「バージョン」というトピック語１４３４の「2.620」という特徴度１４４４及び「3.35%」というトピック内出現確率１４５４が計算されている。

トピック分類部１１０２により抽出された少なくともひとつのトピック語１２０４の各トピック語の特徴度は、各トピック語が所属するトピックにおける各トピック語の出現しやすさを示す指標であり、トピック分類において求められる各トピック語のトピック内出現確率が大きくなるほど大きくなるように決定され、検索又は分析の対象のテキスト１２００における各トピック語の出現頻度が大きくなるほど小さくなるように決定される。望ましくは、各トピック語の特徴度は、式(1)に示されるように、各トピック語のトピック内出現確率をテキストにおける各トピック語の出現頻度で除することにより得られる。テキストにおける各トピック語の出現頻度で除することは、様々なトピックに属し各トピックを特徴づける性質が弱い単語が提示されやすくなることを抑制する。

テキストにおける各トピック語の出現頻度は、式(2)に示されるように、テキストにおける各トピック語の出現数をテキストの全体における単語数で除することにより得られる。

図４に図示される、ステップＳ１０４に続くステップＳ１０５においては、過去の検索において使用された単語が記録された検索ログ１３０２が存在するか否かが判定される。検索ログ１３０２が存在すると判定された場合は、図４に図示されるステップＳ１０６において未抽出単語の追加が行われ、図４に図示されるステップＳ１０７において加算スコア因子の計算が行われ、図４に図示されるステップＳ１０８において除外語の削除が行われる。一方、検索ログ１３０２が存在しないと判定された場合は、図４に図示されるステップＳ１０８において除外語の削除が行われる。

ステップＳ１０６においては、特定部１１０４が、図７に図示されるように、設定回数より多い回数にわたって過去の検索において使用されたが、トピック分類部１１０２により抽出された少なくともひとつのトピック語１２０４に含まれない未抽出単語を検索ログ１３０２から特定し、特定した未抽出単語をトピック分類部１１０２により抽出された少なくともひとつのトピック語１２０４に追加し、更新された少なくともひとつのトピック語１２０９を得る。これにより、特定部１１０４により特定される少なくともひとつの所属トピック語１２０６が未抽出単語を含むようになる。

図８は、第１実施形態のサジェスト生成装置における各ユーザーグループについての各候補単語のサジェストスコアの計算アルゴリズムを説明する図である。図９は、第１実施形態のサジェスト生成装置に記憶される検索ログの例を図示する図である。図１０は、第１実施形態のサジェスト生成装置に記憶されるユーザー管理テーブルの例を図示する図である。図１１は、第１実施形態のサジェスト生成装置において計算される加算スコア因子テーブルの例を図示する図である。

検索ログ１３０２には、各検索を行ったユーザーを特定する情報及び各検索において使用された単語が互いに対応づけられた状態で記録される。図９に図示される例においては、例えば、「001」というユーザー識別子（ＩＤ）１５００、「アプリ」という検索ワード１５０１及び「2016-12-26 16:55:22.916」という検索時刻１５０２が互いに対応づけられた状態で記録されている。ユーザーＩＤ１５００は、各検索を行ったユーザーを特定する情報である。検索ワード１５０１は、各検索において使用された単語である。

ユーザー管理テーブル１３０３には、ユーザーを特定する情報及びユーザーが所属するユーザーグループを特定する情報が互いに対応づけられた状態で格納される。図１０に図示される例においては、例えば、「0001」というユーザーＩＤ１５１０、「ＸＸＸＸ」という名前１５１１及び「Ｇ００１」というグループ（部門）ＩＤ１５１２が互いに関連づけられた状態で格納され、「Ｇ００１」というグループ（部門）ＩＤ１５２０及び「ユーザー窓口」という名前１５２１が互いに関連づけられた状態で格納されている。ユーザーＩＤ１５１０及び名前１５１１は、ユーザーを特定する情報である。グループ（部門）ＩＤ１５２０及び名前１５２１は、ユーザーが所属するユーザーグループを特定する情報である。

検索ログ１３０２及びユーザー管理テーブル１３０３を参照することにより、過去の検索において各ユーザーグループに所属するユーザーにより使用された使用済単語を特定することができる。

図４に図示されるステップＳ１０７においては、スコア因子計算部１１０３が、各ユーザーグループについて、図８に図示されるように、過去の検索において各ユーザーグループに所属するユーザーにより使用された使用済単語を検索ログ１３０２及びユーザー管理テーブル１３０３から特定し、特定した使用済単語が所属するトピックの加算スコア因子１５３０を計算する。図１１に図示される例においては、例えば、「Ｇ００１」というグループＩＤ１５４０が付与されたユーザーグループについて、「corpus1_0_0」というトピックＩＤ１５４１が付与されたトピックの「10」という加算スコア因子１５４２が計算されている。

また、スコア因子計算部１１０３が、各ユーザーグループについて、図８に図示されるように、トピック分類部１１０２により抽出された少なくともひとつのトピック語１２０４の各トピック語が属するトピックの加算スコア因子１５３０をステップＳ１０４において計算された各トピック語の加算前スコア因子１５３１に加算することにより各トピック語のスコア因子１２０５を計算する。各トピック語のスコア因子１２０５も、各トピック語が所属するトピックを各トピック語が特徴づける程度を示す特徴度及び各トピック語が所属するトピックにおける各トピック語のトピック内出現確率の少なくとも一方を示すが、各ユーザーグループに固有の各トピック語のスコア因子となっている。各ユーザーグループに固有の各トピック語のスコア因子１２０５によれば、各ユーザーグループに適したサジェスト１２０８を生成することが可能になる。ステップＳ１０７において計算された各トピック語のスコア因子１２０５は、各候補単語１２６１のサジェストスコア１５３２の計算に使用される。ステップＳ１０７が省略され、ステップＳ１０４において計算された各トピック語のスコア因子が各候補単語１２６１のサジェストスコア１５３２の計算に使用されてもよい。

図４に図示されるステップＳ１０８においては、特定部１１０４が、図７に図示されるように、検索又は分析において不要である除外語が登録された除外語辞書１３０１を使用して少なくともひとつのトピック語１２０９から除外語辞書１３０１に登録された除外語を削除し、少なくともひとつの所属トピック語１２０６を得る。これにより、特定部１１０４により特定される少なくともひとつの所属トピック語１２０６が除外語を含まなくなる。

図４に図示される、ステップＳ１０８に続くステップＳ１０９においては、スコア計算部１１０５が、図３に図示されるように、複数のトピック１２５０から、入力単語１２０１が所属する少なくともひとつの被抽出トピック１２５１を抽出する。少なくともひとつの被抽出トピック１２５１の抽出は、入力単語１２０１が少なくともひとつの被抽出トピック１２５１の各抽出トピックに所属するように行われる。

また、スコア計算部１１０５が、図７に図示されるように、少なくともひとつの被抽出トピック１２５１に付属する複数の候補単語１２６０を含むサジェスト候補リスト１２１０を作成する。

図４に図示される、ステップＳ１０９に続くステップＳ１１０においては、スコア計算部１１０５が、入力単語１２０１とサジェスト候補リスト１２１０に含まれる複数の候補単語１２６０の各候補単語１２６１との関連度の強さを示す各候補単語１２６１のサジェストスコア１５３２を計算する。スコア計算部１１０５は、各候補単語１２６１のサジェストスコア１５３２の計算において、少なくともひとつの被抽出トピック１２５１において各候補単語１２６１が所属する少なくともひとつの所属トピック１２５２を特定する。少なくともひとつの所属トピック１２５２の特定は、各候補単語１２６１が少なくともひとつの所属トピック１２５２の各所属トピックに所属するように行われる。

また、スコア計算部１１０５が、少なくともひとつの所属トピック１２５２についてそれぞれ計算された各候補単語１２６１の少なくともひとつのスコア因子１２０５から各候補単語１２６１のサジェストスコア１５３２を計算する。

また、スコア計算部１１０５が、図７に図示されるように、各候補単語１２６１のサジェストスコア１５３２により示される関連度の強さの順でサジェスト候補リスト１２１０に含まれる複数の候補単語１２６０をソートしてサジェストワードリスト１２０７を作成する。

また、スコア計算部１１０５は、入力単語１２０１を入力したユーザーが属するユーザーグループについて計算された各候補単語１２６１の少なくともひとつのスコア因子１２０５から各候補単語１２６１のサジェストスコア１５３２を計算し、ユーザーが属するユーザーグループに固有のサジェストワードリスト１２０７を作成する。

図１２は、第１実施形態のサジェスト生成装置において作成されるサジェストワードリストの例を図示する図である。

サジェストワードリスト１２０７には、トピックを特定する情報、候補単語及びサジェストスコアが互いに関連付けられた状態で格納される。図１２に図示される例においては、例えば、「corpus0_1_1」というトピックＩＤ１５５０、「アプリ」というトピック語１５５１及び「4.675」というサジェストスコア１５５２が互いに関連付けられた状態で格納されている。トピックＩＤ１５５０は、トピックを特定する情報である。トピック語１５５１は、候補単語である。

図４に図示される、ステップＳ１１０に続くステップＳ１１１においては、提示部１１０６が、図７に図示されるように、サジェストワードリスト１２０７にしたがってサジェスト１２０８を生成する。サジェスト１２０８においては、サジェストワードリスト１２０７に含まれる複数の候補単語１２６０が各候補単語１２６１のサジェストスコア１５３２により示される関連度の強さの順で提示される。

４サジェストスコアの第１の計算方法
図１３は、第１実施形態のサジェスト生成装置における候補単語のサジェストスコアの、第１の計算方法による計算例を説明する図である。

第１の計算方法においては、スコア計算部１１０５が、図３に図示されるように、各抽出トピックに入力単語１２０１が所属するように複数のトピック１２５０から少なくともひとつの被抽出トピック１２５１を抽出する。図１３に示される計算例においては、各被抽出トピックに「アプリ」という入力単語１６００が所属するようにトピックk,l及びmという少なくともひとつの被抽出トピック１６１０が抽出されている。

また、スコア計算部１１０５が、図３に図示されるように、各所属トピックに候補単語１２６１が所属するように少なくともひとつの被抽出トピック１２５１において少なくともひとつの所属トピック１２５２を特定する。図１３に示される計算例においては、各所属トピックに「バージョン」という候補単語１６０１が所属するようにトピックk及びmという少なくともひとつの所属トピック１６１１が特定されている。

また、スコア計算部１１０５が、少なくともひとつの所属トピック１２５２の各所属トピックについて、各所属トピックについて計算された入力単語１２０１のスコア因子１２０５と各所属トピックについて計算された候補単語１２６１のスコア因子１２０５との積を計算する。図１３に図示される計算例においては、トピックkについて、トピックkについて計算された「アプリ」という入力単語１６００の「31.2」という特徴度１６２０とトピックkについて計算された「バージョン」という候補単語１６０１の「15.4」という特徴度１６２１との「31.2×15.4=480.48」という積１６２２が計算され、トピックmについて、トピックmについて計算された「アプリ」という入力単語１６００の「0.3」という特徴度１６２３とトピックmについて計算された「バージョン」という候補単語１６０１の「87.0」という特徴度１６２４との「0.3×87.0=26.1」という積１６２５が計算されている。

また、スコア計算部１１０５が、少なくともひとつの所属トピック１２５２についてそれぞれ計算された少なくともひとつの積の最大値から入力単語１２０１と候補単語１２６１との関連度の強さを示す候補単語１２６１のサジェストスコア１５３２を計算する。図１３に示される計算例においては、トピックkについて計算された「31.2×15.4=480.48」という積１６２２及びトピックmについて計算された「0.3×87.0=26.1」という積１６２５の「480.48」という最大値１６２６が候補単語１６０１のサジェストスコア１６２７にされている。最大値１６２６に一致する候補単語１６０１のサジェストスコア１６２７に代えて最大値１６２６を因子として含む候補単語１６０１のサジェストスコア１６２７が計算されてもよい。例えば、最大値１６２６の定数倍に一致する候補単語１６０１のサジェストスコア１６２７が計算されてもよい。

第１の計算方法においては、一般的に言って、候補単語wordのサジェストスコアScore(word)は、少なくともひとつの所属トピックT(keyword,word)、トピックtについて計算された入力単語keywordの特徴度feature_keyword ^t及びトピックtについて計算された候補単語wordの特徴度feature_word ^tを用いて、式(3)により計算される。

第１の計算方法によれば、単語が所属するトピックを単語が特徴づける程度が強いことを示す大きな特徴度が候補単語１２６１のサジェストスコア１５３２に反映されやすく、単語が所属するトピックを単語が特徴づける程度が弱いことを示す小さな特徴度が候補単語１２６１のサジェストスコア１５３２に反映されにくい。

５サジェストスコアの第２の計算方法
図１４は、第１実施形態のサジェスト生成装置における候補単語のサジェストスコアの、第２の計算方法による計算例を説明する図である。

第２の計算方法においては、第１の計算方法と同じように、スコア計算部１１０５が、図３に図示されるように、複数のトピック１２５０から少なくともひとつの被抽出トピック１２５１を抽出し、少なくともひとつの被抽出トピック１２５１において少なくともひとつの所属トピック１２５２を特定し、各所属トピックについて、各所属トピックについて計算された入力単語１２０１のスコア因子１２０５と各所属トピックについて計算された候補単語１２６１のスコア因子１２０５との積を計算する。

第２の計算方法においては、スコア計算部１１０５が、少なくともひとつの所属トピック１２５２についてそれぞれ計算された少なくともひとつの積の積から入力単語１２０１と候補単語１２６１との関連度の強さを示す候補単語１２６１のサジェストスコア１５３２を計算する。図１４に示される計算例においては、トピックkについて計算された「31.2×15.4=480.48」という積１６２２及びトピックmについて計算された「0.3×87.0=26.1」という積１６２５の「480.48×26.1=12540.528」という積１６２８が候補単語１６０１のサジェストスコア１６２９にされている。積１６２８に一致する候補単語１６０１のサジェストスコア１６２９に代えて積１６２８を因子として含む候補単語１６０１のサジェストスコア１６２９が計算されてもよい。例えば、積１６２８の定数倍に一致する候補単語１６０１のサジェストスコア１６２９が計算されてもよい。

第２の計算方法においては、一般的に言って、候補単語wordのサジェストスコアScore(word)は、少なくともひとつの所属トピックT(keyword,word)、トピックtについて計算された入力単語keywordの特徴度feature_keyword ^t及びトピックtについて計算された候補単語wordの特徴度feature_word ^tを用いて、式(4)により計算される。

第２の計算方法によれば、単語が所属するトピックを単語が特徴づける程度が強いことを示す大きな特徴度及び単語が所属するトピックを単語が特徴づける程度が弱いことを示す小さな特徴度のいずれも候補単語１２６１のサジェストスコア１５３２に反映される。

６サジェストスコアの第３の計算方法
図１５は、第１実施形態のサジェスト生成装置における候補単語のサジェストスコアの、第３の計算方法による計算例を説明する図である。

第３の計算方法においては、第１の計算方法と同じように、スコア計算部１１０５が、図３に図示されるように、複数のトピック１２５０から少なくともひとつの被抽出トピック１２５１を抽出し、少なくともひとつの被抽出トピック１２５１において少なくともひとつの所属トピック１２５２を特定する。

第３の計算方法においては、スコア計算部１１０５が、各所属トピックについて、各所属トピックについて計算された入力単語１２０１のスコア因子１２０５と各所属トピックについて計算された候補単語１２６１のスコア因子１２０５との積を計算する。図１５に示される計算例においては、トピックkについて、トピックkについて計算された「アプリ」という入力単語１６００の「31.2」という特徴度１６２０とトピックkについて計算された「バージョン」という候補単語１６０１の「0.025」というトピック内出現確率１６３０との「31.2×0.025=0.78」という積１６３１が計算され、トピックmについて、トピックmについて計算された「アプリ」という入力単語１６００の「0.3」という特徴度１６２３とトピックmについて計算された「バージョン」という候補単語１６０１の「0.350」というトピック内出現確率１６３２との「0.3×0.350=0.105」という積１６３３が計算されている。

また、スコア計算部１１０５が、少なくともひとつの所属トピック１２５２についてそれぞれ計算された少なくともひとつの積の最大値から入力単語１２０１と候補単語１２６１との関連度の強さを示す候補単語１２６１のサジェストスコア１５３２を計算する。図１５に示される計算例においては、トピックkについて計算された「31.2×0.025=0.78」という積１６３１及びトピックmについて計算された「0.3×0.350=0.105」という積１６３３の「31.2×0.025=0.78」という最大値１６３４が候補単語１６０１のサジェストスコア１６３５にされている。最大値１６３４に一致する候補単語１６０１のサジェストスコア１６３５に代えて最大値１６３４を因子として含む候補単語１６０１のサジェストスコア１６３５が計算されてもよい。例えば、最大値１６３４の定数倍に一致する候補単語１６０１のサジェストスコア１６３５が計算されてもよい。

第３の計算方法においては、一般的に言って、候補単語wordのサジェストスコアScore(word)は、少なくともひとつの所属トピックT(keyword,word)、トピックtについて計算された入力単語keywordの特徴度feature_keyword ^t及びトピックtについて計算された候補単語wordのトピック内出現確率probability_word ^tを用いて、式(5)により計算される。

第３の計算方法によれば、単語が所属するトピックを単語が特徴づける程度が強いことを示す大きな特徴度及び単語が所属するトピックにおける単語のトピック内出現確率が高いことを示す大きなトピック内出現確率が候補単語１２６１のサジェストスコア１５３２に反映されやすく、単語が所属するトピックを単語が特徴づける程度が弱いことを示す小さな特徴度及び単語が所属するトピックにおける単語のトピック内出現確率が低いことを示す小さなトピック内出現確率が候補単語１２６１のサジェストスコア１５３２に反映されにくい。

７サジェストスコアの第４の計算方法
図１６は、第１実施形態のサジェスト生成装置における候補単語のサジェストスコアの、第４の計算方法による計算例を説明する図である。

第４の計算方法においては、第１の計算方法と同じように、スコア計算部１１０５が、図３に図示されるように、複数のトピック１２５０から少なくともひとつの被抽出トピック１２５１を抽出し、少なくともひとつの被抽出トピック１２５１において少なくともひとつの所属トピック１２５２を特定する。

第４の計算方法においては、スコア計算部１１０５が、少なくともひとつの所属トピック１２５２についてそれぞれ計算された候補単語１２６１の少なくともひとつのスコア因子１２０５の最大値から入力単語１２０１と候補単語１２６１との関連度の強さを示す候補単語１２６１のサジェストスコア１５３２を計算する。図１６に示される計算例においては、トピックkについて計算された「バージョン」という候補単語１６０１の「0.025」というトピック内出現確率１６３６及びトピックmについて計算された「バージョン」という候補単語１６０１の「0.350」というトピック内出現確率１６３７の「0.350」という最大値１６３８が候補単語１６０１のサジェストスコア１６３９にされている。最大値１６３８に一致する候補単語１６０１のサジェストスコア１６３９に代えて最大値１６３８を因子として含む候補単語１６０１のサジェストスコア１６３９が計算されてもよい。例えば、最大値１６３８の定数倍に一致する候補単語１６０１のサジェストスコア１６３９が計算されてもよい。

第４の計算方法においては、一般的に言って、候補単語wordのサジェストスコアScore(word)は、少なくともひとつの所属トピックT(keyword,word)及びトピックtについて計算された候補単語wordのトピック内出現確率probability_word ^tを用いて、式(6)により計算される。

第４の計算方法によれば、単語が所属するトピックにおける単語のトピック内出現確率が高いことを示す大きなトピック内出現確率が候補単語１２６１のサジェストスコア１５３２に反映されやすく、単語が所属するトピックにおける単語のトピック内出現確率が低いことを示す小さなトピック内出現確率が候補単語１２６１のサジェストスコア１５３２に反映されにくい。

８各ユーザーグループについてのサジェストスコアの計算の別例
図１７は、第１実施形態のサジェスト生成装置における各ユーザーグループについての各候補単語のサジェストスコアの計算アルゴリズムの別例を説明する図である。

当該別例においては、スコア計算部１１０５が、各トピック語のスコア因子１２０５から、入力単語１２０１と各候補単語１２６１との関連度の強さを示す加算前サジェストスコア１７００を計算する。

また、スコア計算部１１０５が、各ユーザーグループについて、過去の検索において各ユーザーグループに属するユーザーにより使用された使用済単語を検索ログ１３０２及びユーザー管理テーブル１３０３から特定し、使用済単語の加算スコアを計算し、各候補単語１２６１の加算スコア１７０１を各候補単語１２６１の加算前サジェストスコア１７００に加算することにより各候補単語１２６１のサジェストスコア１５３２を計算する。

９画面の例
図１８は、第１実施形態のサジェスト生成装置において表示される画面の例を図示する模式図である。

図１８に図示される画面１８００は、ディスプレイ１０４３に表示される。

画面１８００は、検索に使用される入力単語１２０１の入力を受け付けるテキストボックス１８２０、検索の開始の指示を受け付けるボタン１８２１及びサジェスト１２０８を表示する領域１８２２を備える。テキストボックス１８２０及びボタン１８２１の各々が他の種類のグラフィカルユーザーインターフェース（ＧＵＩ）部品に置き換えられてもよい。

図１８に示される例においては、複数の候補単語１８３０が領域１８２２に同時に表示され、各候補単語１８３１のサジェストスコアにより示される関連度の強さの順に一致する配列順で複数の候補単語１８３０が配列される。１個の候補単語のみが表示され、表示される１個の候補単語が各候補単語１８３１のサジェストスコアにより示される関連度の強さの順に一致する時間順で切り替えられてもよい。

この発明は詳細に説明されたが、上記した説明は、すべての局面において、例示であって、この発明がそれに限定されるものではない。例示されていない無数の変形例が、この発明の範囲から外れることなく想定され得るものと解される。

１０００サジェスト生成装置
１０２０サジェスト生成プログラム
１１００除去部
１１０１形態素解析部
１１０２トピック分類部
１１０３スコア因子計算部
１１０４特定部
１１０５スコア計算部
１１０６提示部
１１０７記憶部
１２００検索又は分析の対象のテキスト（除去前テキスト）
１２０１入力単語
１２０２除去後テキスト
１２０３形態素解析済テキスト
１２０４少なくともひとつのトピック語
１２０５各トピック語のスコア因子
１２０６少なくともひとつの所属トピック語
１２０７サジェストワードリスト
１２０８サジェスト

Claims

テキストに対して形態素解析を行って前記テキストを複数の単語に分割し形態素解析済テキストを得る形態素解析部と、
前記形態素解析済テキストに対してトピック分類を行って前記複数の単語から複数のトピックの各トピックに所属する少なくともひとつのトピック語を抽出するトピック分類部と、
前記少なくともひとつのトピック語の各トピック語が所属するトピックについて、前記各トピック語が所属するトピックを前記各トピック語が特徴づける程度を示す特徴度及び前記各トピック語が所属するトピックにおける前記各トピック語のトピック内出現確率の少なくとも一方を示す前記各トピック語のスコア因子を計算するスコア因子計算部と、
前記各トピックに所属し前記少なくともひとつのトピック語の少なくとも一部を含む少なくともひとつの所属トピック語を特定する特定部と、
各被抽出トピックに入力単語が所属するように前記複数のトピックから少なくともひとつの被抽出トピックを抽出し、前記入力単語と前記少なくともひとつの被抽出トピックに所属する複数の候補単語の各候補単語との関連度の強さを示す前記各候補単語のスコアの計算を行い、前記計算において、各所属トピックに前記各候補単語が所属するように前記少なくともひとつの被抽出トピックにおける少なくともひとつの所属トピックを特定し、前記少なくともひとつの所属トピックについてそれぞれ計算された前記各候補単語の少なくともひとつのスコア因子から前記各候補単語のスコアを計算するスコア計算部と、
前記各候補単語のスコアにより示される関連度の強さの順で前記複数の候補単語を提示する提示部と、
を備えるサジェスト生成装置。
除去前テキストからストップワードを除去し前記テキストを得る除去部をさらに備える
請求項１のサジェスト生成装置。
複合語が登録された強制抽出語辞書を記憶する記憶部をさらに備え、
前記形態素解析部は、前記複数の単語が前記複合語を含むように前記テキストを分割する
請求項１又は２のサジェスト生成装置。
過去の検索において使用された単語が記録された検索ログを記憶する記憶部をさらに備え、
前記スコア因子計算部は、
前記各トピック語が所属するトピックを前記各トピック語が特徴づける程度を示す特徴度及び前記各トピック語が所属するトピックにおける前記各トピック語のトピック内出現確率の少なくとも一方を示す前記各トピック語の加算前スコア因子を計算し、
各ユーザーグループについて、前記過去の検索において前記各ユーザーグループに所属するユーザーにより使用された使用済単語を前記検索ログから特定し、前記使用済単語が所属するトピックの加算スコア因子を計算し、前記各トピック語が所属するトピックの加算スコア因子を前記各トピック語の加算前スコア因子に加算することにより前記各トピック語のスコア因子を計算し、
前記スコア計算部は、
前記入力単語を入力したユーザーが属するユーザーグループについて計算された前記各候補単語の少なくともひとつのスコア因子から前記各候補単語のスコアを計算する
請求項１から３までのいずれかのサジェスト生成装置。
前記各トピック語のスコア因子は、前記各トピック語が所属するトピックを前記各トピック語が特徴づける程度を示す特徴度を示し、
前記各トピック語が所属するトピックを前記各トピック語が特徴づける程度を示す特徴度は、前記各トピック語が所属するトピックにおける前記各トピック語のトピック内出現確率を前記テキストにおける前記各トピック語の出現頻度で除することにより得られる
請求項１から４までのいずれかのサジェスト生成装置。
過去の検索において使用された単語が記録された検索ログを記憶する記憶部をさらに備え、
前記特定部は、設定回数より多い回数にわたって前記過去の検索において使用されたが前記少なくともひとつのトピック語に含まれない未抽出単語を前記検索ログから特定し、前記少なくともひとつの所属トピック語が前記未抽出単語を含むように前記少なくともひとつの所属トピック語を特定する
請求項１から５までのいずれかのサジェスト生成装置。
除外語が登録された除外語辞書を記憶する記憶部をさらに備え、
前記特定部は、前記少なくともひとつの所属トピック語が前記除外語を含まないように前記少なくともひとつの所属トピック語を特定する
請求項１から６までのいずれかのサジェスト生成装置。
前記スコア計算部は、
前記各所属トピックについて、前記各所属トピックについて計算された前記入力単語のスコア因子と前記各所属トピックについて計算された前記各候補単語のスコア因子との積を計算し、
前記少なくともひとつの所属トピックについてそれぞれ計算された少なくともひとつの積の最大値から前記各候補単語のスコアを計算する
請求項１から７までのいずれかのサジェスト生成装置。
前記スコア計算部は、
前記各所属トピックについて、前記各所属トピックについて計算された前記入力単語のスコア因子と前記各所属トピックについて計算された前記各候補単語のスコア因子との積を計算し、
前記少なくともひとつの所属トピックについてそれぞれ計算された少なくともひとつの積の積から前記各候補単語のスコアを計算する
請求項１から７までのいずれかのサジェスト生成装置。
前記各所属トピックについて計算された前記入力単語のスコア因子は、前記入力単語が前記各所属トピックを特徴づける程度を示す特徴度を示し、
前記各所属トピックについて計算された前記各候補単語のスコア因子は、前記各候補単語が前記各所属トピックを特徴づける程度を示す特徴度を示す
請求項８又は９のサジェスト生成装置。
前記各所属トピックについて計算された前記入力単語のスコア因子は、前記入力単語が前記各所属トピックを特徴づける程度を示す特徴度を示し、
前記各所属トピックについて計算された前記各候補単語のスコア因子は、前記各所属トピックにおける前記各候補単語のトピック内出現確率を示す
請求項８又は９のサジェスト生成装置。
前記スコア計算部は、
前記少なくともひとつの所属トピックについてそれぞれ計算された前記各候補単語の少なくともひとつのスコア因子の最大値から前記各候補単語のスコアを計算する
請求項１から７までのいずれかのサジェスト生成装置。
前記各所属トピックについて計算された前記各候補単語のスコア因子は、前記各所属トピックにおける前記各候補単語のトピック内出現確率である
請求項１２のサジェスト生成装置。
過去の検索において使用された単語が記録された検索ログを記憶する記憶部をさらに備え、
前記スコア計算部は、
前記入力単語と前記各候補単語との関連度の強さを示す前記各候補単語の加算前スコアを計算し、
各ユーザーグループについて、前記過去の検索において前記各ユーザーグループに属するユーザーにより使用された使用済単語を前記検索ログから特定し、前記使用済単語の加算スコアを計算し、前記各候補単語の加算スコアを前記各候補単語の加算前スコアに加算することにより前記各候補単語のスコアを計算する
請求項１から１３までのいずれかのサジェスト生成装置。
a) テキストに対して形態素解析を行って前記テキストを複数の単語に分割し形態素解析済テキストを得る工程と、
b) 前記形態素解析済テキストに対してトピック分類を行って前記複数の単語から複数のトピックの各トピックに所属する少なくともひとつのトピック語を抽出する工程と、
c) 前記少なくともひとつのトピック語の各トピック語が所属するトピックについて、前記各トピック語が所属するトピックを前記各トピック語が特徴づける程度を示す特徴度及び前記各トピック語が所属するトピックにおける前記各トピック語のトピック内出現確率の少なくとも一方を示す前記各トピック語のスコア因子を計算する工程と、
d) 前記各トピックに所属し前記少なくともひとつのトピック語の少なくとも一部を含む少なくともひとつの所属トピック語を特定する工程と、
e) 各被抽出トピックに入力単語が所属するように前記複数のトピックから少なくともひとつの被抽出トピックを抽出し、前記入力単語と前記少なくともひとつの被抽出トピックに所属する複数の候補単語の各候補単語との関連度の強さを示す前記各候補単語のスコアの計算を行い、前記計算において、各所属トピックに前記各候補単語が所属するように前記少なくともひとつの被抽出トピックにおける少なくともひとつの所属トピックを特定し、前記少なくともひとつの所属トピックについてそれぞれ計算された前記各候補単語の少なくともひとつのスコア因子から前記各候補単語のスコアを計算する工程と、
f) 前記各候補単語のスコアにより示される関連度の強さの順で前記複数の候補単語を提示する工程と、
をコンピューターに実行させるサジェスト生成プログラム。
a) テキストに対して形態素解析を行って前記テキストを複数の単語に分割し形態素解析済テキストを得る工程と、
b) 前記形態素解析済テキストに対してトピック分類を行って前記複数の単語から複数のトピックの各トピックに所属する少なくともひとつのトピック語を抽出する工程と、
c) 前記少なくともひとつのトピック語の各トピック語が所属するトピックについて、前記各トピック語が所属するトピックを前記各トピック語が特徴づける程度を示す特徴度及び前記各トピック語が所属するトピックにおける前記各トピック語のトピック内出現確率の少なくとも一方を示す前記各トピック語のスコア因子を計算する工程と、
d) 前記各トピックに所属し前記少なくともひとつのトピック語の少なくとも一部を含む少なくともひとつの所属トピック語を特定する工程と、
e) 各被抽出トピックに入力単語が所属するように前記複数のトピックから少なくともひとつの被抽出トピックを抽出し、前記入力単語と前記少なくともひとつの被抽出トピックに所属する複数の候補単語の各候補単語との関連度の強さを示す前記各候補単語のスコアの計算を行い、前記計算において、各所属トピックに前記各候補単語が所属するように前記少なくともひとつの被抽出トピックにおける少なくともひとつの所属トピックを特定し、前記少なくともひとつの所属トピックについてそれぞれ計算された前記各候補単語の少なくともひとつのスコア因子から前記各候補単語のスコアを計算する工程と、
f) 前記各候補単語のスコアにより示される関連度の強さの順で前記複数の候補単語を提示する工程と、
を備え、ソフトウェアの制御によってコンピュータが行う情報処理方法としてのサジェスト生成方法。