JP6718345B2 - テキスト分析方法、テキスト分析装置、及びプログラム - Google Patents

テキスト分析方法、テキスト分析装置、及びプログラム Download PDF

Info

Publication number
JP6718345B2
JP6718345B2 JP2016184789A JP2016184789A JP6718345B2 JP 6718345 B2 JP6718345 B2 JP 6718345B2 JP 2016184789 A JP2016184789 A JP 2016184789A JP 2016184789 A JP2016184789 A JP 2016184789A JP 6718345 B2 JP6718345 B2 JP 6718345B2
Authority
JP
Japan
Prior art keywords
category
text
keyword
partial texts
partial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016184789A
Other languages
English (en)
Other versions
JP2018049478A (ja
Inventor
卓弥 村山
卓弥 村山
孝 楠見
孝 楠見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2016184789A priority Critical patent/JP6718345B2/ja
Publication of JP2018049478A publication Critical patent/JP2018049478A/ja
Application granted granted Critical
Publication of JP6718345B2 publication Critical patent/JP6718345B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、テキスト分析方法、テキスト分析装置、及びプログラムに関する。
団塊世代の退職が迫る等により、様々な企業でマネジメントの技能の分析が求められている。一般的に熟練者の持つ技能の分析をするには、インタビューやワークショップで熟練者に業務について語ってもらい、そこで得られたテキスト情報を分析することが行われている。
テキスト情報の分析は、情報を類似の内容ごとに分類、各文章を要約するタグ付け等を繰り返すことで行われる(非特許文献1)。インタビューのデータは膨大な量になることが多いため、テキスト情報の分析を実施するためには膨大な稼働がかかることになる。
一方、通信サービスの運用における故障内容の分析等を目的とした従来技術も存在する。従来研究では、通信サービスの特徴を複数の観点の異なるカテゴリとして分類し、各カテゴリで定める単語の出現頻度から通信サービス運用にかかわるテキスト情報を意味的な内容に基づいて分類を可能としている(特許文献1)。
特開2009−289016号公報
佐藤郁哉、「質的データ分析法」、新曜社、2008年3月25日、p.33−37
非特許文献1ではテキストの質的な分析が可能であるが、全て人手の作業になるため、作業実施には手間、時間がかかってしまう。また特許文献1は、通信サービスを対象としたものであり、当該技術で定められたカテゴリはマネジメントの分野では活用できない。また、分類対象となる文章は基本的に一つの故障についての内容となる。しかし、インタビューやワークショップで得られるテキスト情報は途中で話のテーマが変わっていることも多い。従来技術ではテーマの変化を検知できないため、テキスト情報を整理することができない。
本発明は、上記の点に鑑みてなされたものであって、テキスト情報の整理を支援することを目的とする。
そこで上記課題を解決するため、話題の変化を示す1以上の文字列を記憶した第1の記憶部を参照して、入力されたテキストを、話題が変化したと推定される個所で分割して複数の部分テキストを生成する分割手順と、前記各部分テキストについて、カテゴリごとに、当該カテゴリに対応して第2の記憶部に記憶されているキーワードの出現数と、前記各キーワードに対して設定されている重み値との加重和と、前記各部分テキストにおける2つの前記キーワードの組ごとの共起数の加重和との和を評価値として算出し、前記評価値が最大であるカテゴリに前記各部分テキストを分類する分類手順と、前記カテゴリに対応するキーワードごとに、当該キーワードを含む前記部分テキストの数と、当該カテゴリに分類された前記部分テキストの数との関係に基づいて、当該キーワードに対する前記重み値を更新する更新手順と、をコンピュータが実行する。
テキスト情報の整理を支援することができる。
第1の実施の形態におけるテキスト分析装置のハードウェア構成例を示す図である。 第1の実施の形態におけるテキスト分析装置の機能構成例を示す図である。 第1の実施の形態におけるテキスト分析装置が実行する処理手順の一例を説明するためのフローチャートである。 第1の実施の形態における話題が変わった個所の推定処理及び入力テキストの分割処理の処理手順の一例を説明するためのフローチャートである。 区切り文字列表の一例を示す図である。 第1の実施の形態における各部分テキストのカテゴリへの分類処理の処理手順の一例を説明するためのフローチャートである。 カテゴリ・キーワード対応表の一例を示す図である。 カテゴリ分類処理の出力例を示す図である。 第1の実施の形態におけるカテゴリ分類情報の更新処理の処理手順の一例を説明するためのフローチャートである。 第2の実施の形態における各部分テキストのカテゴリへの分類処理の処理手順の一例を説明するためのフローチャートである。 共起数の重み値表の一例を示す図である。 共起数の重み値の更新処理の処理手順の一例を説明するためのフローチャートである。 新たなキーワードの追加処理の処理手順の一例を説明するためのフローチャートである。
以下、図面に基づいて本発明の実施の形態を説明する。図1は、第1の実施の形態におけるテキスト分析装置のハードウェア構成例を示す図である。図1のテキスト分析装置10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、CPU104、インタフェース装置105、表示装置106、及び入力装置107等を有する。
テキスト分析装置10での処理を実現するプログラムは、CD−ROM等の記録媒体101によって提供される。プログラムを記憶した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。CPU104は、メモリ装置103に格納されたプログラムに従ってテキスト分析装置10に係る機能を実現する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。表示装置106はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置107はキーボード及びマウス等で構成され、様々な操作指示を入力させるために用いられる。
図2は、第1の実施の形態におけるテキスト分析装置の機能構成例を示す図である。図2において、テキスト分析装置10は、入力部11、出力部12、制御部13、話題区切り推定部14、カテゴリ分類部15、及びカテゴリ分類更新部16等を有する。これら各部は、テキスト分析装置10にインストールされた1以上のプログラムが、CPU104に実行させる処理により実現される。テキスト分析装置10は、また、カテゴリ情報記憶部17、テキスト記憶部18、及び区切り文字列記憶部19等を利用する。これら各記憶部は、例えば、補助記憶装置102、又はテキスト分析装置10にネットワークを介して接続可能な記憶装置等を用いて実現可能である。
図2に示される各機能部の機能については、処理手順の説明において明らかにされる。なお、図2では、テキスト分析装置10が一つのコンピュータによって構成される例を示しているが、図2に示される各機能部は、ネットワークを介して接続される複数のコンピュータに分散されてもよい。例えば、クライアント端末とサーバとによってテキスト分析装置10(分析システム)が構成されてもよい。この場合、例えば、クライアント端末が、入力部11及び出力部12を有し、サーバが、その他の機能部を有してもよい。
図3は、第1の実施の形態におけるテキスト分析装置が実行する処理手順の一例を説明するためのフローチャートである。
ステップS101において、入力部11は、テキスト分析装置10において分析対象とされるテキスト情報の選定又は入力を行う。入力部11は、例えば、表示装置106及び入力装置107等を制御して、インタビュー、ワークショップ等で得られたテキストの選定をユーザから受け付け、当該テキスト情報(以下、「入力テキスト」という。)をテキスト分析装置10へ入力する。
入力テキストがテキスト分析装置10に入力されると、話題区切り推定部14は、入力テキスト内において話題の変わる個所を推定し(S102)、推定された個所で入力テキストを分割する(S103)。その結果、複数の部分テキストが生成される。すなわち、部分テキストは、入力テキストが話題の変わる個所で分割されたテキストである。話題の変わる箇所の推定は、区切り文字列記憶部19に記憶されている区切り文字列を利用して行われる。話題の変わる箇所の推定及び入力テキストの分割の処理手順の詳細については後述される。
続いて、カテゴリ分類部15は、各部分テキストについて、当該部分テキストの内容が該当するマネジメントの技能の分類を推定し、推定したカテゴリの名前(以下、「カテゴリ名」という。)を当該部分テキストに付与する(S104)。すなわち、各部分テキストが、いずれかのカテゴリに分類される。部分テキストのカテゴリへの分類は、各カテゴリに対応するキーワードの当該部分テキストにおける出現状況に基づいて行われる。なお、分類の処理手順の詳細については後述される。
続いて、出力部12は、各部分テキストのカテゴリへの分類結果を出力する(S105)。例えば、出力部12は、カテゴリ分類部15による自動的な分類結果(部分テキストごとにカテゴリ名が付与された結果)を、ユーザによって修正可能な状態で表示装置106に表示する。
続いて、出力部12は、分類結果に対する修正を、入力装置107を介してユーザから受け付ける(S106)。例えば、或る部分テキストに対するカテゴリ名が、ユーザによって変更される。
続いて、出力部12は、修正された分類結果をテキスト記憶部18に記憶する(S107)。
テキスト記憶部18に新たな分類結果が記憶されると、カテゴリ分類更新部16は、カテゴリの分類に利用される情報の更新を実行する(S108)。カテゴリの分類に利用される情報の更新の処理手順の詳細については後述される。
続いて、ステップS102及びS103の詳細について説明する。インタビューやワークショップで扱う話題は、故障修理のように一つではなく、複数になる場合が多い。技能を分析するためのインタビューやワークショップであれば、分析対象とする技能の種類に応じて話題も変わると考えられる。インタビューやワークショップで技能を聞き出す際には、事例について聞き出し、続いてその事例の中で採られた行動の理由などを聞き出していくことが一般的に行われている。
したがって、「なぜ〜したのか?」、「次はどうしたのか?」といったような質問が出ている間は事例を深堀りしており、一つの技能の種類について対話がされていると考えられる。一方、「次に参ります」、「話は変わりますが」といったような発言が行われたとすると、深堀対象を変えて新たな対話が始まることが予想される。
そこで、話題区切り推定部14は、技能を分析するためのインタビューやワークショップのこのような特性を考慮し、新たな対話が始まることが予想される特定の文字列(すなわち、話題の変化を示す特定の文字列。以下、「区切り文字列」という。)の出現個所が入力テキストの中に検知されたら、当該出現個所で話題が変わったとして、入力テキストを分割する。
図4は、第1の実施の形態における話題が変わった個所の推定処理及び入力テキストの分割処理の処理手順の一例を説明するためのフローチャートである。
ステップS201において、話題区切り推定部14は、変数kに1を代入する。変数kは、区切り文字列記憶部19に記憶されている区切り文字列表における区切り文字列のうち、処理対象とされる区切り文字列の項番を示す変数である。
図5は、区切り文字列表の一例を示す図である区切り文字列表に示す文字列は、テキスト分析装置10に蓄積されている全区切り文字列とする。図5に示されている具体的な区切り文字列は7つのみだが、これらの文字列中の「質問」を「トピック」や「議題」に変更した文字列や、「に移ります」を「に変わります」や「です」に変更した文字列等、同義語や微妙な言い回しの違いを考慮した様々な表現の文字列が、区切り文字列表に含まれてもよい。また、区切り文字列表の区切り文字列は、入力部11から追加・削除が可能とされてもよい。
続いて、話題区切り推定部14は、入力テキスト内の文字列と、k番目(項番がkである)の区切り文字列Tとのマッチングを行う(S202)。最初は、入力テキスト内において先頭から区切り文字列Tの文字数分の文字列について、マッチングが行われる。
マッチングが行われた文字列同士が一致した場合(S203でYes)、話題区切り推定部14は、入力テキスト内において、区切り文字列Tと一致した個所の先頭を、分割個所として記憶する(S204)。一方、マッチングが行われた文字列同士が一致しない場合(S203でNo)、ステップS204は実行されずにステップS205に進む。
ステップS205において、話題区切り推定部14は、区切り文字列Tとのマッチングを、入力テキストの末尾まで実行したか否かを判定する。入力テキストの末尾までマッチングが行われていない場合(S205でNo)、ステップS202以降を繰り返す。この際、入力テキストにおいて、区切り文字列Tとのマッチングの対象とされる部分の先頭は、前回のステップS202において区切り文字列Tと一致した部分の末尾の次の文字である。又は、分割個所が記憶されなかった場合(S203でNoだった場合)、前回のマッチング個所から1文字次の個所がマッチング対象とされる部分の先頭となる。
一方、区切り文字列Tとのマッチングが、入力テキストの末尾まで行われた場合(S205でYes)、話題区切り推定部14は、変数kに1を加算する(S206)。続いて、話題区切り推定部14は、kの値が、nと一致するか否かを判定する(S207)。nは、区切り文字列表における最後の区切り文字列に対応する項番の値である。
kがn未満である場合(S207でNo)、ステップS202以降が繰り返される。この際、入力テキストにおいて、区切り文字列Tとのマッチングの対象とされる部分は、入力テキストの先頭とされる。
一方、kがnに一致する場合(S207でYes)、話題区切り推定部14は、入力テキストを、ステップS204において記憶された全ての分割個所で部分テキストに分割し、各部分テキストに対して項番を付与する(S208)。当該項番は、例えば、入力テキスト中における、部分テキストの出現順を示す値である。
続いて、各部分テキストのカテゴリへの分類処理(S104)の詳細について説明する。各部分テキストのカテゴリへの分類処理では、予めカテゴリごとに定められたキーワードが、各部分テキスト中に含まれている数(出現数)をカウントし、部分テキストごとに、最もカウント数の多いカテゴリに分類する。
図6は、第1の実施の形態における各部分テキストのカテゴリへの分類処理の処理手順の一例を説明するためのフローチャートである。
ステップS301において、カテゴリ分類部15は、変数k及び変数iのそれぞれを0に初期化する。変数kは、処理対象とされる部分テキストの項番を示す変数である。変数iは、処理対象とされるカテゴリの項番を示す変数である。
続いて、カテゴリ分類部15は、kに1を加算して、変数Rmaxに3を代入する(S302)。変数Rmaxについては後述される。続いて、カテゴリ分類部15は、iに1を加算して、変数cに0を代入する(S303)。変数cについては後述される。
続いて、カテゴリ分類部15は、k番目の部分テキストに対する、i番目のカテゴリの分類評価値R(k,i)を計算する(S304)。本実施の形態において、R(k,i)は、以下の式で算出される。
Figure 0006718345
ここで、wijは、i番目のカテゴリにおけるj番目のキーワードの重み値である。Cは、部分テキストkに含まれるキーワードjのカウント数である。Mは、i番目のカテゴリに対応するキーワードの数である。すなわち、分類評価値R(k,i)は、カテゴリiに対応する全てのキーワードのカウント数の加重和である。
i番目のカテゴリにおけるj番目のキーワード、当該キーワードの重み値(wij)、及びMの値は、カテゴリ情報記憶部17に記憶されているカテゴリ・キーワード対応表を参照して特定可能である。
図7は、カテゴリ・キーワード対応表の一例を示す図である。図7に示されるように、カテゴリ・キーワード対応表には、マネジメントの技能のカテゴリごとに、項番、カテゴリ名、及びキーワードが記憶されている。各キーワードに付与されている括弧内の数字は、当該キーワードの重み値を示す。当該重み値の初期値は全て1とされているが、後述されるように、テキスト記憶部18に一定数の分類結果が蓄積されると更新される。また、入力部11からの操作により、カテゴリの新たな追加や、既存のカテゴリの削除が可能とされてもよい。なお、図7に示される各カテゴリと各カテゴリに対応するキーワードは、実際のマネジメント職に対するインタビュー・ワークショップで得られたテキストメモの分類から得られたもとが採用されている。
続いて、カテゴリ分類部15は、算出されたR(k,i)が、Rmax以上であるか否かを判定する(S305)。R(k,i)が、Rmax以上である場合(S305でYes)、カテゴリ分類部15は、R(k,i)によってRmaxを更新し、cにiを代入する(S306)。一方、算出されたR(k,i)が、Rmax未満である場合(S305でNo)、ステップS306は実行されない。すなわち、Rmaxは、分類評価値R(k,i)に対する閾値である。また、変数cは、閾値を超え、かつ、最大の分類評価値R(k,i)が得られたカテゴリの項番を記憶しておくための変数である。本実施の形態ではRmax=3としており、各キーワードの重み値の初期値を1としていることからテキスト分析装置10の利用開始時には、部分テキストkにキーワードが3つ以上見つからなければ、部分テキストkはその他のカテゴリに分類されることとなる。
続いて、カテゴリ分類部15は、iがNに一致するか否かを判定する(S307)。Nは、カテゴリ・キーワード対応表におけるカテゴリの数である。iがN未満である場合(S307でNo)、ステップS303以降が繰り返される。iがNに一致する場合(S307でYes)、カテゴリ分類部15は、iに0を代入する。続いて、カテゴリ分類部15は、k番目の部分テキストに、c番目のカテゴリ名を付与する(S309)。すなわち、k番目の部分テキストが、c番目のカテゴリに分類される。
続いて、カテゴリ分類部15は、kがMに一致するか否かを判定する(S310)。kがM未満である場合(S310でNo)、ステップS302以降が繰り返される。kがMに一致する場合(S310でYes)、カテゴリ分類部15は、カテゴリ名が付与された各部分テキストを処理結果として出力する(S311)。
図8は、カテゴリ分類処理の出力例を示す図である。図8に示されるように、カテゴリ分類処理では、部分テキストごとに、項番、カテゴリ名、及び部分テキストの内容を含む情報が出力される。
なお、図8に示した情報が、図3のステップS105において表示装置106に表示され、当該情報に対して、ステップS106において修正が行われる。その修正結果がステップS107においてテキスト記憶部18に記憶される。修正が行われない場合、図8に示した情報がそのままテキスト記憶部18に記憶される。
続いて、カテゴリの分類に利用される情報(以下、「カテゴリ分類情報」という。)の更新処理(S108)の詳細について説明する。図9は、第1の実施の形態におけるカテゴリ分類情報の更新処理の処理手順の一例を説明するためのフローチャートである。図3において説明したように、図9の処理手順は、テキスト記憶部18に対して新たな分類結果が記憶されると実行される。
ステップS401において、カテゴリ分類更新部16は、テキスト記憶部18に蓄積された分類結果の量を確認する。具体的には、各カテゴリに分類された部分テキストが一定数以上存在するかが確認される。本実施の形態では各カテゴリにつき5件以上の部分テキストが蓄積されていなければ(S401でNo)、以降の処理は実行されない。なお、当該一定数として、5以外の値が設定されてもよい。
一方、各カテゴリに分類された部分テキストが一定数以上存在する場合(S401でYes)、カテゴリ分類更新部16は、変数iを0で初期化する(S402)。変数iは、処理対象のカテゴリの項番を示す変数である。続いて、カテゴリ分類更新部16は、iに1を加算する(S403)。続いて、カテゴリ分類更新部16は、変数jを0で初期化する(S404)。変数jは、カテゴリiに対応するキーワードのうち、処理対象のキーワードの順番を示す変数である。続いて、カテゴリ分類更新部16は、jに1を加算する(S405)。続いて、カテゴリ分類更新部16は、カテゴリiに含まれるキーワードjを含む部分テキストの数dijを、カテゴリ・キーワード対応表と、テキスト記憶部18を参照して算出する(S406)。
続いて、カテゴリ分類更新部16は、dijが0より大きいか否かを判定する(S407)。dijが0より大きい場合(S407でYes)、カテゴリ分類更新部16は、以下の式によりカテゴリiのキーワードjの重み値wijを更新する(S408)。
Figure 0006718345
一方、dijが0である場合(S407でNo)、カテゴリ分類更新部16は、以下の式によりカテゴリiのキーワードjの重み値wijを更新する(S409)。
Figure 0006718345
すなわち、この場合、dij=1として、重み値wijが更新される。
なお、更新結果は、カテゴリ・キーワード対応表に反映される。
上記したステップS405以降は、カテゴリiに対応する全てのキーワードについて実行される(S410)。また、ステップS403以降は、カテゴリ・キーワード対応表における全てのカテゴリについて実行される(S411)。
上述したように、第1の実施の形態によれば、テキスト情報の整理を支援することができる。すなわち、マネジメントに関するインタビュー、ワークショップで得られたテキスト情報を自動で分類することが可能とすることができる。このため、テキスト情報に対する分類、タグ付の手間・時間を削減できる。
次に、第2の実施の形態について説明する。第2の実施の形態では第1の実施の形態と異なる点について説明する。第2の実施の形態において特に言及されない点については、第1の実施の形態と同様でもよい。
第2の実施の形態では、各部分テキストのカテゴリの分類について、キーワードの共起関係が考慮される。具体的には、第2の実施の形態では、図6の処理手順の代わりに、図10の処理手順が実行される。
図10は、第2の実施の形態における各部分テキストのカテゴリへの分類処理の処理手順の一例を説明するためのフローチャートである。図10中、図6と同一ステップには同一ステップ番号を付し、その説明は省略する。
図10では、ステップS304がステップS304aに置換されている。すなわち、第2の実施の形態では、以下の式に基づいて、分類評価値R(k,i)が算出される。
Figure 0006718345
ここでK(j,l)は、カテゴリiにおけるキーワードjとキーワードlとの共起数に対する重み値である。C(j,l)は、部分テキストkにおけるキーワードjとキーワードlとの共起数である。共起数は、キーワードjとキーワードlとが同じ部分テキスト中にそれぞれ1回(1組)検出されると1つカウントされる。
なお、共起数に対する重み値K(j,l)は、例えば、カテゴリ情報記憶部17に記憶されている共起数の重み値表に基づいて特定される。
図11は、共起数の重み値表の一例を示す図である。図11に示されるように、本実施の形態では、共起数の重み値の初期値はそれぞれ0とするが、他の値が用いられてもよい。
共起数の重み値は、例えば、カテゴリ分類更新部16によって更新される。図12は、共起数の重み値の更新処理の処理手順の一例を説明するためのフローチャートである。図12中、図9と同一ステップには、同一ステップ番号を付し、その説明は省略する。なお、図12の処理手順は、図9と同様のタイミングで実行される。
ステップS406に続いて、カテゴリ分類更新部16は、dijが2より大きいか否かを判定する(S501)。dijが2以下である場合(S501でNo)、ステップS410に進む。dijが2より大きい場合(S501でYes)、カテゴリ分類更新部16は、変数lを0に初期化して(S502)、変数lに1を加算する(S503)。変数lは、キーワードjとの共起数のカウント対象とされるキーワードの、カテゴリiにおける順番である。
続いて、カテゴリ分類更新部16は、以下の式に基づいて、K(j,l)を更新する(S504)。
Figure 0006718345
ステップS503以降は、カテゴリiに含まれる全てのキーワードについて実行される(S505)。
次に、第3の実施の形態について説明する。第3の実施の形態では第1又は第2の実施の形態と異なる点について説明する。第3の実施の形態において特に言及されない点については、第1又は第2の実施の形態と同様でもよい。
第3の実施の形態では、カテゴリ・キーワード対応表に対して、自動的にキーワードが追加される例について説明する。キーワードの追加は、例えば、カテゴリ分類更新部16によって実行される。
図13は、新たなキーワードの追加処理の処理手順の一例を説明するためのフローチャートである。図13中、図9と同一ステップには、同一ステップ番号を付し、その説明は省略する。なお、図13の処理手順は、図9と同様のタイミングで実行される。
ステップS401でYesの場合、カテゴリ分類更新部16は、入力テキストを、単語ごとに分解する(S601)。なお、図13において、変数jは、入力テキストから分解された単語のうち、処理対象とされる単語の順番を示す。
ステップS602において、カテゴリ分類更新部16は、カテゴリiに分類された部分テキストのうち、単語jを含む部分テキストの数dijを算出する。続いて、カテゴリ分類更新部16は、dijが3以上であるか否かを判定する(S602)。dijが3未満である場合(S603でNo)、ステップS410に進む。dijが3以上である場合(S602でYes)、カテゴリ分類更新部16は、カテゴリi以外に分類された部分テキストうち、単語jを含む部分テキストの数d'ijを算出する(S604)。d'ijが3未満であれば(S605でYes)、カテゴリ分類更新部16は、カテゴリ・キーワード対応表のカテゴリiに対して、単語jをキーワードとして追加する(S606)。一方、d'ijが3以上であれば(S605でNo)、ステップS606は実行されない。
ステップS405以降は、入力テキストから分解された全ての単語について実行される(S410)。すなわち、図13のステップS410において、Mは、入力テキストから分解された単語数を示す。
なお、図13では、dij及びd'ijに対する閾値を3としているが、3以外の値が閾値とされてもよい。
なお、上記各実施の形態において、区切り文字列記憶部19は、第1の記憶部の一例である。カテゴリ情報記憶部17は、第2の記憶部の一例である。話題区切り推定部14は、分割部の一例である。カテゴリ分類部15は、分類部の一例である。カテゴリ分類更新部16は、更新部の一例である。
以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
10 テキスト分析装置
11 入力部
12 出力部
13 制御部
14 話題区切り推定部
15 カテゴリ分類部
16 カテゴリ分類更新部
17 カテゴリ情報記憶部
18 テキスト記憶部
19 区切り文字列記憶部
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 CPU
105 インタフェース装置
106 表示装置
107 入力装置
B バス

Claims (5)

  1. 話題の変化を示す1以上の文字列を記憶した第1の記憶部を参照して、入力されたテキストを、話題が変化したと推定される個所で分割して複数の部分テキストを生成する分割手順と、
    前記各部分テキストについて、カテゴリごとに、当該カテゴリに対応して第2の記憶部に記憶されているキーワードの出現数と、前記各キーワードに対して設定されている重み値との加重和と、前記各部分テキストにおける2つの前記キーワードの組ごとの共起数の加重和との和を評価値として算出し、前記評価値が最大であるカテゴリに前記各部分テキストを分類する分類手順と、
    前記カテゴリに対応するキーワードごとに、当該キーワードを含む前記部分テキストの数と、当該カテゴリに分類された前記部分テキストの数との関係に基づいて、当該キーワードに対する前記重み値を更新する更新手順と、
    をコンピュータが実行することを特徴とするテキスト分析方法。
  2. 或る前記カテゴリについての或る2つの前記キーワードの組の共起数の加重和の重みは、過去に当該カテゴリに分類された前記部分テキストのうち、当該組が共起する前記部分テキストの数を、過去に当該カテゴリに分類された前記部分テキストの数で除した値である、
    ことを特徴とする請求項1記載のテキスト分析方法。
  3. 話題の変化を示す1以上の文字列を記憶した第1の記憶部を参照して、入力されたテキストを、話題が変化したと推定される個所で分割して複数の部分テキストを生成する分割部と、
    前記各部分テキストについて、カテゴリごとに、当該カテゴリに対応して第2の記憶部に記憶されているキーワードの出現数と、前記各キーワードに対して設定されている重み値との加重和と、前記各部分テキストにおける2つの前記キーワードの組ごとの共起数の加重和との和を評価値として算出し、前記評価値が最大であるカテゴリに前記各部分テキストを分類する分類部と、
    前記カテゴリに対応するキーワードごとに、当該キーワードを含む前記部分テキストの数と、当該カテゴリに分類された前記部分テキストの数との関係に基づいて、当該キーワードに対する前記重み値を更新する更新部と、
    を有することを特徴とするテキスト分析装置。
  4. 或る前記カテゴリについての或る2つの前記キーワードの組の共起数の加重和の重みは、過去に当該カテゴリに分類された前記部分テキストのうち、当該組が共起する前記部分テキストの数を、過去に当該カテゴリに分類された前記部分テキストの数で除した値である、
    ことを特徴とする請求項3記載のテキスト分析装置。
  5. 請求項1又は2記載のテキスト分析方法をコンピュータに実行させることを特徴とするプログラム。
JP2016184789A 2016-09-21 2016-09-21 テキスト分析方法、テキスト分析装置、及びプログラム Active JP6718345B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016184789A JP6718345B2 (ja) 2016-09-21 2016-09-21 テキスト分析方法、テキスト分析装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016184789A JP6718345B2 (ja) 2016-09-21 2016-09-21 テキスト分析方法、テキスト分析装置、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018049478A JP2018049478A (ja) 2018-03-29
JP6718345B2 true JP6718345B2 (ja) 2020-07-08

Family

ID=61767636

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016184789A Active JP6718345B2 (ja) 2016-09-21 2016-09-21 テキスト分析方法、テキスト分析装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP6718345B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7091146B2 (ja) * 2018-05-25 2022-06-27 シャープ株式会社 情報処理装置、情報処理方法、およびプログラム
CN110265032A (zh) * 2019-06-05 2019-09-20 平安科技(深圳)有限公司 会议数据分析处理方法、装置、计算机设备和存储介质
CN114072786A (zh) * 2019-07-04 2022-02-18 松下知识产权经营株式会社 说话解析装置、说话解析方法以及程序
JP2021140485A (ja) * 2020-03-05 2021-09-16 ソニーグループ株式会社 情報処理装置及び情報処理方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11110409A (ja) * 1997-10-07 1999-04-23 Ntt Data Corp 情報分類方法及び装置
JP2000222431A (ja) * 1999-02-03 2000-08-11 Mitsubishi Electric Corp 文書分類装置
JP4161171B2 (ja) * 2002-06-17 2008-10-08 ヤマハ株式会社 情報分類装置、方法及びプログラム
JP2005141476A (ja) * 2003-11-06 2005-06-02 Ricoh Co Ltd 文書管理装置、プログラムおよび記録媒体
US8443008B2 (en) * 2008-04-01 2013-05-14 Nec Corporation Cooccurrence dictionary creating system, scoring system, cooccurrence dictionary creating method, scoring method, and program thereof
JP5409321B2 (ja) * 2009-12-16 2014-02-05 株式会社エヌ・ティ・ティ・データ 情報評価装置、情報評価方法、及び情報評価プログラム

Also Published As

Publication number Publication date
JP2018049478A (ja) 2018-03-29

Similar Documents

Publication Publication Date Title
JP6718345B2 (ja) テキスト分析方法、テキスト分析装置、及びプログラム
US7231375B2 (en) Computer aided query to task mapping
US20230142864A1 (en) Estimation of Admixture Generation
CN106874441B (zh) 智能问答方法和装置
CN108153800B (zh) 信息处理方法、信息处理装置以及记录介质
CN110888990B (zh) 文本推荐方法、装置、设备及介质
US20070244690A1 (en) Clustering of Text for Structuring of Text Documents and Training of Language Models
EP2885755B1 (en) Agent system, agent control method and agent control program with ability of natural conversation with users
JP5125307B2 (ja) 工数見積プログラム、該プログラムを記録した記録媒体、工数見積装置、および工数見積方法
WO2014028860A2 (en) System and method for matching data using probabilistic modeling techniques
WO2014109388A1 (ja) テキストマイニング装置、テキストマイニングシステム、テキストマイニング方法及び記録媒体
JP6663826B2 (ja) 計算機及び応答の生成方法
WO2019156103A1 (ja) Faq整備支援装置、faq整備支援方法、及びプログラム
JP2001266060A (ja) アンケート回答分析システム
CN111368130A (zh) 客服录音的质检方法、装置、设备及存储介质
US20210133390A1 (en) Conceptual graph processing apparatus and non-transitory computer readable medium
US8301619B2 (en) System and method for generating queries
CN113379398B (zh) 一种项目需求的生成方法、装置、电子设备及存储介质
JP2021092925A (ja) データ生成装置およびデータ生成方法
JPWO2014020834A1 (ja) 単語潜在トピック推定装置および単語潜在トピック推定方法
CN113342942B (zh) 语料自动化获取方法、装置、计算机设备及存储介质
US10599658B2 (en) Search device, search method, and non-transitory computer readable medium for performing a search for candidate experts and displaying results of the search
CN111145053A (zh) 基于人工智能的企业法律顾问管理系统及方法
JP2021105907A (ja) 会議群分析装置、及びプログラム
JP2005192024A (ja) コールセンタにおける通話音声データ管理方式およびそれに用いるオペレータ端末

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160923

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20160923

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180806

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20180806

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20180806

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190709

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190723

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200212

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200609

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200612

R150 Certificate of patent or registration of utility model

Ref document number: 6718345

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150