JP7074999B2 - 情報処理装置、制御方法、プログラム - Google Patents

情報処理装置、制御方法、プログラム Download PDF

Info

Publication number
JP7074999B2
JP7074999B2 JP2017229838A JP2017229838A JP7074999B2 JP 7074999 B2 JP7074999 B2 JP 7074999B2 JP 2017229838 A JP2017229838 A JP 2017229838A JP 2017229838 A JP2017229838 A JP 2017229838A JP 7074999 B2 JP7074999 B2 JP 7074999B2
Authority
JP
Japan
Prior art keywords
document
word
soaring
words
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017229838A
Other languages
English (en)
Other versions
JP2019101591A (ja
Inventor
義治 進
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Marketing Japan Inc
Canon IT Solutions Inc
Original Assignee
Canon Marketing Japan Inc
Canon IT Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Marketing Japan Inc, Canon IT Solutions Inc filed Critical Canon Marketing Japan Inc
Priority to JP2017229838A priority Critical patent/JP7074999B2/ja
Publication of JP2019101591A publication Critical patent/JP2019101591A/ja
Application granted granted Critical
Publication of JP7074999B2 publication Critical patent/JP7074999B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、特定分野の文書を検索する技術に関する。
近年、時刻情報を持ったテキストデータの分析を行い、最近増加している話題を発見する技術が開発されている。
それらの技術を用いることで、全期間のテキストデータを等しく扱うと埋もれてしまう最近の話題を効率的に発見することができ、それによりリスクの分析やトレンドの発見をすることができる。
特許文献1では、過去の一定期間において現在時刻に近い期間では正の値を、遠い期間では負の値を持つ話題検出フィルタを、時間と共に変化する各語句の出現文書数に対して適用することで、過去での出現文書数と最近の出現文書数との対比から該語句の時間的な意外性を表す話題度を計算する手法が提案されている。
特許文献2では、世の中のトレンドに基づいて、TVやVOD(ビデオオンデマンド)等の番組と関連するアイテムを推定し、推薦する手法が提案されている。特許文献2において世の中のトレンドを取得する際、マイクロブログ(例えばTwitter(登録商標))等のリアルタイム性の高いテキスト集合から一定期間分のテキストを用いてトピックを抽出し、トピックのトレンドスコアを計算するという手法を用いている。
特開2005-316899号公報 特開2015-79381号公報
特許文献1の技術では、対象の文書集合において最近急激に出現回数が増加した単語を発見することができる。しかし、対象の文書集合において出現回数がわずかであっても興味深い単語およびその単語を含む文書を発見することはできない。例えば、対象の文書集合が顧客からの問い合せ文書である場合、世の中で「クラウド」の話題が増加していても問い合せ文書中には「クラウド」に関する文書がわずかしなく、世の中のトレンドを反映した「クラウド」に関係する興味深い問い合わせ文書があっても、効率的に発見できない場合がある。
特許文献2に示される技術により世の中のトレンドを抽出して用いることで、このような場合に「クラウド」に関係した興味深い問い合わせ文書を効率的に発見できる可能性がある。ただし、特許文献2の技術はアイテムを推薦することが目的であり、問い合せ文書の提示をするものではない。
また、世の中のトレンドを抽出する技術をテキストマイニングシステムにおいて利用する際には、トレンドの情報をさらに活用することが期待できる。具体的には、次に示すような活用法がある。
問い合わせ文書において製品の「メンテナンス」に関する問い合わせが多く、かつ世の中で「メンテナンス」に関係した話題として「IoT」の話題が増加しているならば、「IoT」は問い合せ文書と潜在的に関係が強い話題であるとみなせる。そのため「IoT」を直接含む問い合せ文書がなくとも、潜在的に関係が強い話題として「IoT」をテキストマイニングシステムのユーザに提示することで、ユーザは新たな知見が得られる可能性がある。
本発明の目的は、時事性が強く幅広い話題を含むテキスト集合から世の中のトレンドを抽出して、分析対象の文書集合と関係の強いトレンドおよびトレンドを反映した分析対象文書をユーザに提示することである。
本発明は、第1文書グループの文書を検索する情報処理装置であって、前記第1文書グループの文書から、第1キーワードを特定する第1特定手段と、前記特定された第1キーワードに基づいて、第2文書グループ日時情報を持つ文書から関連文書を検索する関連文書検索手段と、前記検索された関連文書から、当該関連文書の日時情報に基づいて第2キーワードを特定する第2特定手段と、前記特定された第2キーワードに基づいて、前記第1文書グループの文書を検索する対象文書検索手段とを備えることを特徴とする。
本発明によれば、製品やサービスの問い合せ文書から世の中のトレンドを反映した文書を効率よく発見することと、世の中のトレンドの中で製品やサービスと関係が深いトレンドを発見することが可能になる。
本発明の注目単語提示システムのシステム構成の一例を示す図である。 システムを構成する情報処理装置に適用可能なハードウェア構成の一例を示すブロック図である。 分析対象文書データ、ストリーム文書データの、検索ログデータの一例を示す図である。 単語頻度表、単語絞り込み急騰度表、単語全体急騰度表、注目単語表の一例を示す図である。 単語頻度表を作成する処理の一例を示すフローチャートである。 単語絞り込み急騰度表を作成する処理の一例を示すフローチャートである。 単語全体急騰度表を作成する処理の一例を示すフローチャートである。 注目単語表を作成する処理の一例を示すフローチャートである。 注目単語をユーザ端末に提示する処理の一例を示すフローチャートである。 本発明の実施形態における、注目単語を表示した画面の一例を示す図である。
以下、図面を参照して、本発明の実施形態を詳細に説明する。
図1は、本発明の実施形態における注目単語提示システム100のシステム構成の一例を示す図である。
注目単語提示システム100は、分析対象文書保存部110、ストリーム文書保存部120、検索ログ保存部150、およびユーザ端末160とローカルエリアネットワークを介して接続される。
注目単語提示システム100は、単語頻度算出部101と、単語絞り込み急騰度算出部102と、単語全体急騰度算出部103と、注目単語算出部104と、注目単語提示部105とを備える。
図1における全文検索システム140は、検索者端末130、分析対象文書保存部110、および検索ログ保存部150とローカルエリアネットワークを介して接続される。
全文検索システム140は検索者端末130から検索語を受け取ると、分析対象文書保存部110から検索語に応じた分析対象文書を取得して検索者端末130に送る一般的な検索システムである。さらに、全文検索システム140は検索者端末130から検索語を受け取ったとき、図3(c)のように検索語を含む検索ログデータ500を検索ログ保存部150に保存する。例えば、全文検索システムとして、顧客からの問い合せの文章をマーケティング担当者が分析目的で検索するシステムがありうる。
分析対象文書保存部110は、図3(a)のような分析対象文書データ300を保存している。分析対象文書データ300の各要素は、テキストを持つ分析対象文書である。なお、分析対象文書には、テキスト以外にもテキスト作成日時やテキスト作成者などの情報を含んでいてもよい。例えば分析対象文書保存部110に保存される分析対象文書データ300として、コールセンターにおける問い合せを保存した文書データを使うことができる。
ストリーム文書保存部120は、図3(b)のようなストリーム文書データ400を保存している。ストリーム文書データ400の各要素は、テキストと作成日時を持つストリーム文書である。ストリーム文書データ400は、マイクロブログ(例えばTwitter(登録商標))やニュースなど、時事性が強く幅広い話題を含む文書データから取得できる。
注目単語提示システム100は、分析対象文書保存部110に保存される分析対象文書データ300と、ストリーム文書保存部120に保存されるストリーム文書データ400と、検索ログ保存部150に保存される検索ログデータ500を入力として、図4(g)のような注目単語表900を作成する。注目単語提示システム100は、注目単語表900を作成する処理を定期的に(例えば毎日0時に1回)自動で行うことができ、作成された注目単語表900を記憶媒体に保持しておくことができる。
ユーザ端末160が注目単語提示システム100に注目単語の提示を要求すると、注目単語提示システム100は記憶媒体に保持された注目単語表900から注目単語の情報をユーザ端末160に送信し、ユーザ端末160は図10のような注目単語の情報を表示する。
図2は、本発明の実施形態における注目単語提示システム100、検索者端末130、全文検索システム140、ユーザ端末160に適用可能な情報処理装置のハードウェア構成の一例を示すブロック図である。
図2において、201はCPUで、システムバス204に接続される各デバイスやコントローラを統括的に制御する。また、ROM202あるいは外部メモリ211には、CPU201の制御プログラムであるBIOS(Basic Input / Output System)やオペレーティングシステムプログラム(以下、OS)や、各サーバー或いは各PCの実行する機能を実現するために必要な後述する各種プログラム等が記憶されている。
203はRAMで、CPU201の主メモリ、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をROM202あるいは外部メモリ211からRAM203にロードして、該ロードしたプログラムを実行することで各種動作を実現するものである。
また、205は入力コントローラで、キーボード(KB)209や不図示のマウス等のポインティングデバイス等からの入力を制御する。206はビデオコントローラで、ディスプレイ210等の表示器への表示を制御する。なお、表示器はCRTや、液晶ディスプレイ等の様々な種類が存在する。
207はメモリコントローラで、ブートプログラム,各種のアプリケーション,フォントデータ,ユーザファイル,編集ファイル,各種データ等を記憶する外部記憶装置(ハードディスク(HD))や、フレキシブルディスク(FD)、或いはPCMCIAカードスロットにアダプタを介して接続されるCFカードメモリ等の外部メモリ211へのアクセスを制御する。
208は通信I/Fコントローラで、ネットワークを介して外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、TCP/IPを用いた通信等が可能である。
なお、CPU201は、例えばRAM203内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、ディスプレイ210上での表示を可能としている。また、CPU201は、ディスプレイ210上の不図示のマウスカーソル等でのユーザ指示を可能とする。
本発明を実現するための後述する各種プログラムは、外部メモリ211に記録されており、必要に応じてRAM203にロードされることによりCPU201によって実行されるものである。さらに、上記プログラムの実行時に用いられる定義ファイル及び各種情報テーブル等も、外部メモリ211に格納されており、これらについての詳細な説明も後述する。
次に図5~図9のフローチャートを用いて、本発明の実施形態における注目単語提示システム100が実行する処理について説明する。
図5のフローチャートは、注目単語提示システム100の単語頻度算出部101が単語頻度表600を作成する処理(単語頻度算出処理)の一例を示すフローチャートである。
単語頻度表600は図4(d)のように単語とその頻度の情報を持つ表である。作成された単語頻度表600は、単語絞り込み急騰度算出部102の入力になる。
ステップS1101では、分析対象文書保存部110に保存されている分析対象文書データ300から単語を抽出する。各分析対象文書のテキストに対して公知の形態素解析器により形態素解析を行い、品詞が名詞である形態素を単語として抽出する。単語を抽出する対象の分析対象文書は、分析対象文書データ300に含まれるすべての分析対象文書にできる。または、ユーザが指定する単語を含んだ分析対象文書のみを対象にしてもよい。または、分析対象文書が文書作成日時などの日時情報を持つ場合、特定の日時以降である分析対象文書のみを対象にしてもよい。
ステップS1102では、抽出された全ての単語で、その単語の頻度を計算する。単語の頻度は、S1101においてその単語を抽出した回数の合計として計算することができる。または、単語の頻度は、その単語を抽出できた分析対象文書の件数として計算してもよい。
ステップS1103では、抽出された全ての単語とその頻度を、単語頻度表600に追加する。
単語頻度算出処理の具体例として、図3(a)の分析対象文書データ300が入力された場合における、単語頻度表600の作成処理について説明する。簡単のため、分析対象文書データ300において省略された部分は存在しないものとする。
ステップS1101では、分析対象文書データ300から単語を抽出する。例えば、図3(a)において「クラウド上のシステムでも動かせるか」というテキストを持つ分析対象文書に対して、テキストの形態素解析を行い、その結果から品詞が名詞である「クラウド」、「上」、「システム」という単語が抽出できる。このような単語抽出の処理を、全ての分析対象文書に対して行う。
ステップS1102では、抽出された全ての単語で、その単語の頻度を計算する。図3(a)に表示されている分析対象文書では、「クラウド上のシステムでも動かせるか」および「クラウドと連携したい」というテキストから、どちらも「クラウド」という単語を1回ずつ抽出できる。単語「クラウド」を抽出した回数の合計が2回であるため、「クラウド」の頻度を2とする。このような頻度の計算を全ての単語に対して行う。
ステップS1103では、こうして求められた単語とその頻度の情報を、単語頻度表600に追加する。
図6のフローチャートは、注目単語提示システム100の単語絞り込み急騰度算出部102が単語絞り込み急騰度表700を作成する処理(単語絞り込み急騰度算出処理)の一例を示すフローチャートである。
単語絞り込み急騰度表700は、図4(e)のように、単語に対してその絞り込み急騰度、絞り込み単語リスト、および関連ストリーム文書リストの情報を持つデータである。
ステップS1201では、まずは注目単語提示システム100の記憶媒体上に、テキストからなる絞り込み単語を保存できる保存領域を用意しておく。その後、単語頻度表600から単語を絞り込み単語に追加する。絞り込み単語として追加する単語は、単語頻度表600における頻度が特定のしきい値以上である単語のみにしてもよい。または、単語頻度表600における頻度の順位が特定のしきい値より上位である単語のみにしてもよい。
ステップS1202では、検索ログ保存部150に保存された検索ログデータ500から、検索語を絞り込み単語に追加する。絞り込み単語として追加する検索語は、検索ログデータ500に含まれる全ての検索語にしてもよい。または、検索ログデータ500における出現回数が特定のしきい値以上である検索語のみにしてもよい。または、検索ログデータ500における出現回数順に検索語を並べたとき、順位が特定のしきい値より上位である検索語のみにしてもよい。
ステップS1203では、各絞り込み単語について繰り返す処理を開始する。
ステップS1204では、ストリーム文書保存部120に保存されたストリーム文書データ400から、絞り込み単語を用いてストリーム文書を絞り込む。絞り込む方法として、絞り込み単語をテキストの部分文字列として含むストリーム文書のみを残し、それ以外のストリーム文書は除くという方法が利用できる。
ステップS1205では、絞り込み結果であるストリーム文書のリストから、単語を抽出する。ストリーム文書のテキストに対して公知の形態素解析器により形態素解析を行い、品詞が名詞である形態素を単語として抽出する。以降では、ここで抽出された単語をストリーム単語と呼ぶこともある。
ステップS1206では、抽出された全てのストリーム単語に対して、ストリーム単語のトレンド性を示す指標である急騰度を計算する。古いストリーム文書ではあまり使われないが、最近のストリーム文書ではよく使われるストリーム単語をトレンドを示す単語とみなし、急騰度が高くなるようにする。
急騰度の計算には、ストリーム単語が出現したストリーム文書の作成日時と、単語絞り込み急騰度表700の作成処理を開始した日時である現在日時の情報を用いる。作成日時が現在日時に近い過去であるストリーム文書において出現回数の多いストリーム単語が、急騰度が高くなるような計算方法にする。急騰度の計算方法の1つとして、特許文献1に示される語句話題度算出手段によって求められる話題度をストリーム単語の急騰度とすることができる。
ステップS1207では、ストリーム単語に関して単語絞り込み急騰度表700に情報を追加する。単語絞り込み急騰度表700の単語欄にはストリーム単語を、絞り込み急騰度欄には急騰度を、絞り込み単語リストには現在の絞り込み単語を、関連ストリーム文書リストには絞り込み結果のストリーム文書をそれぞれ追加する。
なお、絞り込み単語について繰り返し処理を行う途中で、単語絞り込み急騰度表700に既にあるストリーム単語が追加対象とされる場合がある。その場合は、そのストリーム単語に関して、絞り込み急騰度、絞り込み単語リスト、関連ストリーム文書リストを更新する。その際、絞り込み急騰度は既存の値と現在の絞り込み単語におけるストリーム単語の急騰度で比較し、大きい方の値に置き換える。また、絞り込み単語リスト、関連ストリーム文書リストは既存のリストの末尾に追加する。
ステップS1208では、全ての絞り込み単語について処理を実行した場合、本フローチャートの処理を終了する。一方、未実行の絞り込み単語が残っている場合は、未実行の絞り込み単語について処理を行うため、ステップS1204に処理を戻す。
単語絞り込み急騰度算出処理の具体例として、図4(d)の単語頻度表600と図3(c)の検索ログデータ500と図3(b)のストリーム文書データ400が入力された場合における、単語絞り込み急騰度算出処理について説明する。簡単のため、図4(d)と図3(c)と図3(b)において省略された部分は存在しないものとする。
ステップS1201では、図4(d)の単語頻度表600から単語を絞り込み単語に追加する。頻度の順位が2位までの単語を絞り込み単語に追加する場合、「サーバー」、「メンテナンス」が絞り込み単語となる。
ステップS1202では、図3(c)の検索ログデータ500から検索語を絞り込み単語に追加する。検索ログデータ500において出現回数が最上位の検索語を絞り込み単語にする場合、2回出現する「故障」が絞り込み単語となる。
このようにして、「サーバー」、「メンテナンス」、および「故障」の3単語が絞り込み単語となる。
ステップS1203では、各絞り込み単語について繰り返す処理を開始する。説明の都合上、「メンテナンス」、「故障」、「サーバー」の順で説明する。なお、処理の順番は結果に影響しない。
ステップS1204とステップS1205により、図3(b)のようなストリーム文書データ400から、絞り込み単語を用いてストリーム文書を絞り込み、その結果のストリーム文書リストから単語を抽出する。
現在の絞り込み単語が「メンテナンス」であるとき、ストリーム文書データ400から、テキストに「メンテナンス」を含んだ「IoTを活用したメンテナンス事業が成長」のストリーム文書が絞り込み結果として残る。そのストリーム文書から、ストリーム単語として「IoT」「活用」「メンテナンス」「事業」「成長」という単語が抽出できる。また、ストリーム文書の作成日時によりこれらの単語は2017/5/10 19:06:54に抽出したストリーム単語である、という情報も保持しておく。
ステップS1206では、抽出された全てのストリーム単語に対して、特許文献1に示される語句話題度算出手段によって話題度を計算し、それをストリーム単語の急騰度とする。例えば、ストリーム単語「IoT」の急騰度が4.1、「事業」の急騰度が0.2などになったとする。
ステップS1207では、ストリーム単語に関する情報を単語絞り込み急騰度表700に追加する。そのとき、単語絞り込み急騰度表700に、単語が「IoT」、絞り込み急騰度が4.1、絞り込み単語リストが「メンテナンス」、関連ストリーム文書リストが「IoTを活用したメンテナンス事業が成長」であるデータを追加する。その他のストリーム単語「活用」、「メンテナンス」、「事業」、および「成長」に関しても同様の処理を行う。
続いて、絞り込み単語が「故障」であるとき、ステップS1204~ステップS1206の処理を行ったとする。
絞り込み結果のストリーム文書には「故障予測のためのIoTサービス導入 - C社」のテキストを持つストリーム文書が残る。このとき、例えばストリーム単語「IoT」の急騰度が5.2となったとする。
ここで単語絞り込み急騰度算出部102はストリーム単語「IoT」を単語として単語絞り込み急騰度表700に追加しようとするが、絞り込み単語が「メンテナンス」であったときに既に「IoT」のデータは追加されている。そのため、単語「IoT」に関して、絞り込み急騰度と絞り込み単語リストと関連ストリーム文書リストを更新する。絞り込み急騰度は、単語絞り込み急騰度表700における既存の絞り込み急騰度である4.1(絞り込み単語「メンテナンス」のときの値)と、絞り込み単語「故障」における急騰度である5.2を比較し、より大きい値である5.2を採用して更新する。さらに、絞り込み単語リストには「故障」を追加し、関連ストリーム文書リストにも「故障予測のためのIoTサービス導入 - C社」というテキストを追加する。
絞り込み単語「サーバー」についても同様に処理を行い、図4(e)のような単語絞り込み急騰度表700が作成される。
図7のフローチャートは、注目単語提示システム100の単語全体急騰度算出部103が単語全体急騰度表800を作成する処理(単語全体急騰度算出処理)の一例を示すフローチャートである。
単語全体急騰度表800は、図4(f)のように単語とその全体急騰度の値を持つ表である。
ステップS1301では、ストリーム文書保存部120に保存されているストリーム文書データ400から、全てのストリーム文書で単語を抽出する。単語抽出の処理は、単語絞り込み急騰度表700の作成処理(図6)におけるステップS1205と同様に行う。
ステップS1302では、抽出された全ての単語に対して、ストリーム文書全体における単語のトレンド性を示す指標である急騰度を計算する。急騰度の計算は、単語絞り込み急騰度表700の作成処理(図6)におけるステップS1206の急騰度計算と同様に行う。
ステップS1303では、抽出された単語とその急騰度の一覧を、単語全体急騰度表800に追加する。ただし、全体急騰度欄に追加する値は、単語の急騰度にする。
図8のフローチャートは、注目単語提示システム100の注目単語算出部104が注目単語表900を作成する処理(注目単語算出処理)の一例を示すフローチャートである。
注目単語表900は、図4(g)のように、単語に対してその関連分析対象文書リスト、絞り込み単語リスト、関連ストリーム文書リスト、絞り込み急騰度、および全体急騰度を持つ表である。
ただし、関連分析対象文書リスト、絞り込み単語リスト、関連ストリーム文書リスト、および絞り込み急騰度は空のことがある。関連ストリーム文書リストが存在する場合、絞り込み単語リストと絞り込み急騰度も存在することが保証されるようにする。また、関連分析対象文書リストと関連ストリーム文書リストは少なくとも一方が空でないようにする。
ステップS1401では、まずは注目単語提示システム100の記憶媒体上に、テキストからなる再絞り込み単語を保存できる保存領域を用意しておく。その後、単語絞り込み急騰度表700から絞り込み急騰度に基づいて、単語を再絞り込み単語に追加する。再絞り込み単語に追加する単語は、絞り込み急騰度が特定のしきい値以上である単語のみとすることができる。または、単語絞り込み急騰度表700における絞り込み急騰度の順位が特定のしきい値より上位である単語のみにしてもよい。
ステップS1402では、単語全体急騰度表800から全体急騰度に基づいて、単語を再絞り込み単語に追加する。再絞り込み単語に追加する単語は、全体急騰度が特定のしきい値以上である単語のみとすることができる。または、単語全体急騰度表800における全体急騰度の順位が特定のしきい値より上位である単語のみにしてもよい。
なお、ステップS1401ですでに再絞り込み単語に追加されている単語は、ステップS1402で二重に追加はしない。
ステップS1403では、各再絞り込み単語について繰り返す処理を開始する。
ステップS1404では、分析対象文書保存部110に保存された分析対象文書データ300から、再絞り込み単語を用いて分析対象文書を絞り込む。絞り込む方法として、再絞り込み単語をテキストの部分文字列として含む分析対象文書のみを残し、それ以外の分析対象文書は除くという方法が利用できる。
絞り込まれた結果として、分析対象文書が0件となる場合も、1件以上になる場合もある。
ステップS1405では、再絞り込み単語が注目単語表900に加えられる条件を満たしているかどうか判定する。
ステップS1404で絞り込まれた結果の分析対象文書が1件以上ある場合、Yesと判定する。または、再絞り込み単語がステップS1401において単語絞り込み急騰度表700から選出された単語であるなら、Yesと判定する。
それ以外の場合はNoと判定する。言い換えると、Noと判定される条件は、絞り込まれた結果の分析対象文書が0件で、かつ再絞り込み単語が単語全体急騰度表800から選出されたことである。この条件により、注目単語表900に含まれる単語は、関連分析対象文書リストと関連ストリーム文書リストの少なくとも一方が空でないことが保証される。
Yesと判定された場合、ステップS1406に処理を移す。Noと判定された場合、ステップS1407に処理を移す。
ステップS1406では、再絞り込み単語とそれに付随する情報を注目単語表900に追加する。
この処理では、まず、単語欄には再絞り込み単語を追加する。続いて、関連分析対象文書リスト欄には、ステップS1404で絞り込まれた結果の分析対象文書のテキストを追加する。ただし、分析対象文書が0件の場合には、何も追加せず空欄とする。続いて、絞り込み単語リストと関連ストリーム文書リストと絞り込み急騰度は、単語絞り込み急騰度表700から再絞り込み単語についてのデータを取得してきて、そのまま追加する。ただし、単語絞り込み急騰度表700にデータがない単語については、何も追加せず空欄とする。続いて、全体急騰度は、単語全体急騰度表800から再絞り込み単語についてのデータを取得してきて、そのまま追加する。
ステップS1407では、全ての再絞り込み単語について処理を実行した場合、本フローチャートの処理を終了する。一方、未実行の再絞り込み単語が残っている場合は、未実行の再絞り込み単語について処理を行うため、ステップS1404に処理を戻す。
注目単語算出処理の具体例として、図4(e)の単語絞り込み急騰度表700と図4(f)の単語全体急騰度表800が入力された場合における、注目単語算出処理について説明する。簡単のため、図4(e)と図4(f)において省略された部分は存在しないものとする。
ステップS1401で、図4(e)の単語絞り込み急騰度表700から絞り込み急騰度の上位2単語を再絞り込み単語に追加する場合、「IoT」、「クラウド」が再絞り込み単語に追加される。
ステップS1402で、図4(f)の単語全体急騰度表800から全体急騰度の上位3単語を再絞り込み単語に追加する場合、「民泊」、「IoT」、「チャット」を再絞り込み単語への追加候補とする。しかし、「IoT」はステップS1401ですでに再絞り込み単語に追加されているため、ここでは追加しない。結果として、「民泊」、「チャット」の2単語が再絞り込み単語に追加される。
このようにして、単語絞り込み急騰度表700から「IoT」、「クラウド」が、単語全体急騰度表800から「民泊」、「チャット」が再絞り込み単語として選出される。
ステップS1403では、各再絞り込み単語について繰り返す処理を開始し、ステップS1407にて繰り返しの終了判断をする。
ステップS1404とステップS1405では、再絞り込み単語を用いて分析対象文書を絞り込み、その絞り込み結果に応じて再絞り込み単語を注目単語表900に追加するかどうかを判断し、追加する場合は、ステップS1406で追加処理を行う。
ここでは、「IoT」、「クラウド」、「民泊」、および「チャット」の各単語について上記の処理を行う。説明の都合上、「クラウド」、「IoT」、「チャット」、「民泊」の順で説明する。なお、処理の順番は結果に影響しない。
再絞り込み単語「クラウド」を用いて分析対象文書を絞り込むと、結果として「クラウド上のシステムでも動かせるか」と「クラウドと連携したい」の2件の文書が残る。「クラウド」は、単語絞り込み急騰度表700から選出された単語であり、かつ絞り込み結果の分析対象文書が1件以上あるため、注目単語表900に加える単語であると判定される。
判定の結果、注目単語表900の単語欄には「クラウド」を追加する。関連分析対象文書リスト欄には、絞り込み結果の分析対象文書である「クラウド上のシステムでも動かせるか」と「クラウドと連携したい」の2件のテキストを追加する。絞り込み単語リスト欄と関連ストリーム文書リスト欄と絞り込み急騰度欄には、図4(e)の単語絞り込み急騰度表700の値をそのまま追加する。すなわち絞り込み単語リスト欄は「サーバー」が、関連ストリーム文書リスト欄は「A社、業務用サーバーのクラウド移行を完了」のストリーム文書が、絞り込み急騰度欄は4.6がそれぞれ追加される。さらに、全体急騰度には全体急騰度表から取得した値2.6を追加する。
続いて、再絞り込み単語「IoT」を用いて分析対象文書を絞り込むと、結果は0件となる。絞り込み結果の分析対象文書は0件であるものの、「IoT」は単語絞り込み急騰度表700から選出された単語であるため、注目単語表900に加える単語であると判定される。
注目単語表900に追加する方法は「クラウド」と同様である。ただし、絞り込み結果の分析対象文書が0件であるため、関連分析対象文書リスト欄は空欄とする。
続いて、再絞り込み単語「チャット」を用いて分析対象文書を絞り込むと、結果は「チャットUIで操作する機能が欲しい」の1件の文書となる。「チャット」は、単語全体急騰度表800から選出された単語であるものの、絞り込み結果の分析対象文書が1件以上であるため、注目単語表900に加える単語であると判定される。
注目単語表900に追加する方法は「クラウド」と同様である。ただし、単語絞り込み急騰度表700に単語「チャット」に関する情報が存在しないため、絞り込み単語リスト欄と関連ストリーム文書リスト欄と絞り込み急騰度欄は空欄とする。
続いて、再絞り込み単語「民泊」を用いて分析対象文書を絞り込むと、結果は0件となる。「民泊」は、絞り込まれた結果の分析対象文書が0件で、かつ単語全体急騰度表800から選出された単語であるため、注目単語表900には加えない。
以上のようにして、図4(g)の注目単語表900が作成される。
図9のフローチャートは、注目単語提示システム100の注目単語提示部105がユーザ端末160から注目単語の提示要求を受け取ったときに、ユーザ端末160へ注目単語の情報を送信する処理(注目単語提示処理)の一例を示すフローチャートである。
ユーザ端末160では、図10のように、単語と注目理由とストリーム文書または分析対象文書からなる関連文書を並べた形式で注目単語の情報を表示できる。また、ストリーム文書である関連文書と分析対象文書である関連文書それぞれで、文書の性質を示す見出しも表示できる。
ステップS1501では、注目単語提示システム100の記憶媒体に保持された注目単語表900から単語を取得する。以降これらの単語は注目単語と呼ぶ。
ステップS1502では、注目単語表900の内容に基づいて、注目単語の並べ替えを行う。
一例として、以下のような方法で並べ替えを行うことができる。ここでは、注目単語に優先度の数値を設定して、優先度の降順に並べることにする。
まず、注目単語に対して、関連分析対象文書リストと関連ストリーム文書リストに値が存在するかどうかを判定する。
関連分析対象文書リストと関連ストリーム文書リストがどちらも存在する場合、優先度を3とする。さらに、優先度3の注目単語が複数ある場合、それらの注目単語は絞り込み急騰度の降順で並べる。
関連ストリーム文書リストのみが存在する場合、優先度を2とする。さらに、優先度2の注目単語が複数ある場合、それらの注目単語は絞り込み急騰度の降順で並べる。
関連分析対象文書リストのみが存在する場合、優先度を1とする。さらに、優先度1の注目単語が複数ある場合、それらの注目単語は全体急騰度の降順で並べる。
ユーザ端末160においては、この順序で注目単語を表示する。
ステップS1503では、各注目単語について繰り返す処理を開始する。
この繰り返し内部の処理により、図10のようにそれぞれの注目単語に対して単語、注目理由、関連文書を持つ表示用データを作成する。
ステップS1504では、注目単語を表示用データの単語欄に追加する。
ステップS1505では、関連分析対象文書の有無を判定する。注目単語表900において、現在の注目単語に対して関連分析対象文書リストに値が存在すれば、Yesと判定し、ステップS1506に処理を移す。現在の注目単語に対して関連分析対象文書リストに値が存在しないなら、Noと判定し、ステップS1508に処理を移す。
ステップS1506では、注目単語表900にある関連分析対象文書リストを、表示用データの関連文書欄に追加する。さらに、関連文書欄に見出しを追加することもできる。見出しには、注目単語提示システム100に組み込まれた値を用いることができる。図10の例では「問い合せ文書」という見出しが設定されている。
ステップS1507では、注目単語表900にある関連分析対象文書リストの件数を、表示用データの注目理由欄に追加する。このとき、件数と注目単語提示システム100に組み込まれた定型テキストを組み合わせて注目理由欄に追加することもできる。図10の例では、「問い合せ文書X件」という定型テキストから「X」の部分に件数を挿入して、注目理由欄に追加している。
ステップS1508では、関連ストリーム文書の有無を判定する。
注目単語表900において、現在の注目単語に対して関連ストリーム文書リストに値が存在すれば、Yesと判定し、ステップS1510に処理を移す。なお、関連ストリーム文書が存在する場合、絞り込み単語リストも存在することが保証される。
現在の注目単語に対して関連ストリーム文書リストに値が存在しないなら、Noと判定し、ステップS1509に処理を移す。
ステップS1509では、「世の中のトレンドである」という旨のテキストを、表示用データの注目理由欄に追加する。実際のテキストは、注目単語提示システム100に組み込まれた定型テキストを用いる。図10の例では、「世の中で話題」という定型テキストを注目理由欄に追加している。
ステップS1510では、注目単語表900における絞り込み単語リストを、表示用データの注目理由欄に追加する。このとき、絞り込み単語リストと注目単語提示システム100に組み込まれた定型テキストを組み合わせて注目理由欄に追加することもできる。図10の例では、「Xとの関連語で、世の中で話題」という定型テキストから「X」の部分に絞り込み単語リストを挿入して、注目理由欄に追加している。
ステップS1511では、注目単語表900における関連ストリーム文書リストを、表示用データの関連文書欄に追加する。さらに、関連文書欄に見出しを追加することもできる。見出しには、注目単語提示システム100に組み込まれた値を用いることができる。図10の例では「ニュース」という見出しが設定されている。
ステップS1512では、全ての注目単語について処理を実行した場合、ステップS1513に処理を移す。一方、未実行の注目単語が残っている場合は、未実行の注目単語について処理を行うため、ステップS1504に処理を戻す。
ステップS1513では、ユーザ端末160へ注目単語に関する表示用データの一覧を送信する。
注目単語提示処理の具体例として、図4(g)の注目単語表900が入力され、図10のような画面を表示するようユーザ端末160にデータ送信するまでの、注目単語提示処理について説明する。
なお、図4(g)において省略された部分については説明の中で適宜補足していく。
ステップS1501では、注目単語表900から注目単語として「クラウド」、「IoT」、「チャット」を取得する。
ステップS1502では、注目単語表900の内容に基づいて、注目単語の並べ替えを行う。
「クラウド」は、関連分析対象文書リストと関連ストリーム文書リストがどちらも存在するため、優先度を3とする。
「IoT」は、関連分析対象文書リストが存在せず関連ストリーム文書リストが存在するため、優先度を2とする。
「チャット」は、関連分析対象文書リストが存在して関連ストリーム文書リストが存在しないため、優先度を1とする。
以上より、注目単語の順番は優先度の降順である「クラウド」、「IoT」、「チャット」の順となる。
ステップS1503では、各注目単語について繰り返す処理を開始する。
ステップS1504では、注目単語を表示用データの単語欄に追加する。
ステップS1505、S1506、S1507により、関連分析対象文書がある注目単語に対して、関連分析対象文書の情報を用いて表示用データの理由欄と関連文書欄に情報を追加する。
注目単語「クラウド」の場合、関連分析対象文書に「クラウド上のシステムでも動かせるか」「クラウドと連携したい」というテキストがある。
ここで、図4(g)において省略された部分にさらに8件のテキストがあり、全体で10件のテキストがあるものとする。
注目単語「クラウド」の表示用データにおいて、関連文書欄には見出し「問い合せ文書」とこれらの関連分析対象文書のテキストが追加される。
さらに、関連分析対象文書の件数を用いて、注目理由欄には「問い合せ文書10件」というテキストが追加される。
注目単語「IoT」の場合、関連分析対象文書が存在しないため、何もせずステップS1508へ処理を移す。
注目単語「チャット」では「クラウド」と同様の処理を行う。
ステップS1508により、関連ストリーム文書が存在する注目単語と存在しない注目単語で処理が分岐する。
注目単語「クラウド」の場合、関連ストリーム文書が存在するため、ステップS1510、S1511を実行する。
注目単語表900の絞り込み単語リストから「サーバー」を取得して、注目理由欄に『「サーバー」との関連語で、世の中で話題』というテキストを追加する。さらに、注目単語表900の関連ストリーム文書リストから「A社、業務用サーバーのクラウド移行を完了」などのテキストを取得し、見出し「ニュース」とともに関連文書欄に追加する。
注目単語「IoT」では「クラウド」と同様の処理を行う。
注目単語「チャット」の場合、関連ストリーム文書が存在しないため、ステップS1509を実行して、注目理由欄に「世の中で話題」という定型テキストを追加する。
以上のように表示用データを作成し、最後にステップS1513で、ユーザ端末160に図10の画面を表示させるために、ユーザ端末160へ作成した注目単語に関する表示用データを送信する。
上記により、製品やサービスの問い合せ文書から世の中のトレンドを反映した文書を効率よく発見することと、世の中のトレンドの中で製品やサービスと関係が深いトレンドを発見することが可能になる。
以上、一実施形態について示したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記録媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
また、本発明におけるプログラムは、各図に示すフローチャートの処理方法をコンピュータが実行可能なプログラムであり、本発明の記憶媒体は各図の処理方法をコンピュータが実行可能なプログラムが記憶されている。なお、本発明におけるプログラムは各図の各装置の処理方法ごとのプログラムであってもよい。
以上のように、前述した実施形態の機能を実現するプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムを読出し実行することによっても、本発明の目的が達成されることは言うまでもない。
この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記憶した記録媒体は本発明を構成することになる。
プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、CD-R、DVD-ROM、磁気テープ、不揮発性のメモリカード、ROM、EEPROM、シリコンディスク、ソリッドステートドライブ等を用いることができる。
また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
さらに、本発明を達成するためのプログラムをネットワーク上のサーバー、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。
100 注目単語提示システム
110 分析対象文書保存部
120 ストリーム文書保存部
130 検索者端末
140 全文検索システム
150 検索検索ログ保存部
160 ユーザ端末

Claims (7)

  1. 第1文書グループの文書を検索する情報処理装置であって、
    前記第1文書グループの文書から、第1キーワードを特定する第1特定手段と、
    前記特定された第1キーワードに基づいて、第2文書グループ日時情報を持つ文書から関連文書を検索する関連文書検索手段と、
    前記検索された関連文書から、当該関連文書の日時情報に基づいて第2キーワードを特定する第2特定手段と、
    前記特定された第2キーワードに基づいて、前記第1文書グループの文書を検索する対象文書検索手段と
    を備えることを特徴とする情報処理装置。
  2. 前記第2特定手段は、前記関連文書の日時情報に基づき、現在日時に近い関連文書に含まれる単語の優先度を上げることにより第2キーワードを特定することを特徴とする請求項1に記載の情報処理装置。
  3. 前記第1特定手段は、前記第1文書グループの文書に含まれる単語の掲出頻度により第1キーワードを特定することを特徴とする請求項1または2に記載の情報処理装置。
  4. 前記第1特定手段は、前記第1文書グループの文書の検索に使用された検索語により第1キーワードを特定することを特徴とする請求項1~3のいずれか1項に記載の情報処理装置。
  5. 前記特定された第1キーワードと、前記特定された第2キーワードとを表示する表示制御手段を備えることを特徴とする請求項1~4のいずれか1項に記載の情報処理装置。
  6. 第1文書グループの文書を検索する情報処理装置の制御方法であって、
    第1特定手段が、前記第1文書グループの文書から、第1キーワードを特定する第1特定ステップと、
    関連文書検索手段が、前記特定された第1キーワードに基づいて、第2文書グループ日時情報を持つ文書から関連文書を検索する関連文書検索ステップと、
    第2特定手段が、前記検索された関連文書から、当該関連文書の日時情報に基づいて第2キーワードを特定する第2特定ステップと、
    対象文書検索手段が、前記特定された第2キーワードに基づいて、前記第1文書グループの文書を検索する対象文書検索ステップと
    を備えることを特徴とする情報処理装置の制御方法。
  7. 第1文書グループの文書を検索する情報処理装置において実行可能なプログラムであって、
    前記情報処理装置を、
    前記第1文書グループの文書から、第1キーワードを特定する第1特定手段と、
    前記特定された第1キーワードに基づいて、第2文書グループ日時情報を持つ文書から関連文書を検索する関連文書検索手段と、
    前記検索された関連文書から、当該関連文書の日時情報に基づいて第2キーワードを特定する第2特定手段と、
    前記特定された第2キーワードに基づいて、前記第1文書グループの文書を検索する対象文書検索手段
    として機能させるためのプログラム。
JP2017229838A 2017-11-30 2017-11-30 情報処理装置、制御方法、プログラム Active JP7074999B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017229838A JP7074999B2 (ja) 2017-11-30 2017-11-30 情報処理装置、制御方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017229838A JP7074999B2 (ja) 2017-11-30 2017-11-30 情報処理装置、制御方法、プログラム

Publications (2)

Publication Number Publication Date
JP2019101591A JP2019101591A (ja) 2019-06-24
JP7074999B2 true JP7074999B2 (ja) 2022-05-25

Family

ID=66973681

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017229838A Active JP7074999B2 (ja) 2017-11-30 2017-11-30 情報処理装置、制御方法、プログラム

Country Status (1)

Country Link
JP (1) JP7074999B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024018961A1 (ja) * 2022-07-21 2024-01-25 真之 正林 情報処理装置、情報処理方法、およびコンピュータプログラム
JP2024131686A (ja) 2023-03-16 2024-09-30 株式会社リコー プログラム、情報処理システム、データ処理システム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004295797A (ja) 2003-03-28 2004-10-21 Oki Electric Ind Co Ltd 情報検索装置
JP2010055155A (ja) 2008-08-26 2010-03-11 Nec Biglobe Ltd サーバ装置、情報処理方法およびプログラム
JP2012212333A (ja) 2011-03-31 2012-11-01 Yahoo Japan Corp 急上昇ワード関連付け装置及び方法
JP2014026614A (ja) 2012-07-30 2014-02-06 Kadokawa Digix Inc 検索・情報表示システム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08153112A (ja) * 1994-11-28 1996-06-11 Toshiba Corp 文書作成装置及び文書作成方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004295797A (ja) 2003-03-28 2004-10-21 Oki Electric Ind Co Ltd 情報検索装置
JP2010055155A (ja) 2008-08-26 2010-03-11 Nec Biglobe Ltd サーバ装置、情報処理方法およびプログラム
JP2012212333A (ja) 2011-03-31 2012-11-01 Yahoo Japan Corp 急上昇ワード関連付け装置及び方法
JP2014026614A (ja) 2012-07-30 2014-02-06 Kadokawa Digix Inc 検索・情報表示システム

Also Published As

Publication number Publication date
JP2019101591A (ja) 2019-06-24

Similar Documents

Publication Publication Date Title
US11947597B2 (en) Persisted enterprise graph queries
US11086883B2 (en) Systems and methods for suggesting content to a writer based on contents of a document
US20160188626A1 (en) Searching and placeholders
US20130268554A1 (en) Structured document management apparatus and structured document search method
US20210056605A1 (en) Content curation and product linking system and method
US20110302149A1 (en) Identifying dominant concepts across multiple sources
CN107609192A (zh) 一种搜索引擎的补充搜索方法和装置
US9916360B2 (en) Joining operations in document oriented databases
US20120166415A1 (en) Supplementing search results with keywords derived therefrom
CN111309200A (zh) 一种扩展阅读内容的确定方法、装置、设备及存储介质
CN111460289A (zh) 新闻资讯的推送方法和装置
JP7074999B2 (ja) 情報処理装置、制御方法、プログラム
JP7395377B2 (ja) コンテンツ検索方法、装置、機器、および記憶媒体
KR101039414B1 (ko) 객체 간의 관계를 설정하고 이에 대한 정보를 제공하기 위한 방법, 서버 및 컴퓨터 판독 가능한 기록 매체
US10643142B2 (en) Search term prediction
US20170193119A1 (en) Add-On Module Search System
US10546029B2 (en) Method and system of recursive search process of selectable web-page elements of composite web page elements with an annotating proxy server
CN116762087A (zh) 针对内容创作应用的人工智能驱动的个性化
JP6867579B2 (ja) 情報処理装置、情報処理システム、その制御方法及びプログラム
CN109978645B (zh) 一种数据推荐方法和装置
US10528569B2 (en) Dataset browsing using additive filters
JP7284371B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP7545061B2 (ja) 情報処理システム、情報処理方法、プログラム
JP2016122263A (ja) 情報処理装置、情報処理方法、プログラム
KR20170090273A (ko) 컨텐츠 제작 어플리케이션 및 상기 컨텐츠 제작 어플리케이션 구동 방법

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20180703

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20181031

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190115

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211015

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220114

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220412

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220425

R151 Written notification of patent or utility model registration

Ref document number: 7074999

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151