JP2010198246A - 意味解析装置、方法、およびプログラム - Google Patents
意味解析装置、方法、およびプログラム Download PDFInfo
- Publication number
- JP2010198246A JP2010198246A JP2009041456A JP2009041456A JP2010198246A JP 2010198246 A JP2010198246 A JP 2010198246A JP 2009041456 A JP2009041456 A JP 2009041456A JP 2009041456 A JP2009041456 A JP 2009041456A JP 2010198246 A JP2010198246 A JP 2010198246A
- Authority
- JP
- Japan
- Prior art keywords
- item
- items
- semantic
- category
- combination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 67
- 238000000034 method Methods 0.000 title description 20
- 238000000605 extraction Methods 0.000 claims abstract description 57
- 238000004891 communication Methods 0.000 claims abstract description 37
- 239000000284 extract Substances 0.000 claims abstract description 21
- 238000009795 derivation Methods 0.000 abstract description 5
- 238000012545 processing Methods 0.000 description 30
- 230000006870 function Effects 0.000 description 26
- 230000014509 gene expression Effects 0.000 description 25
- 238000010586 diagram Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 7
- 238000007796 conventional method Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 3
- 230000004397 blinking Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012356 Product development Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Machine Translation (AREA)
Abstract
【課題】通信サービス提供時に得られるテキストデータからその特徴として抽出した単語間の意味関係を的確に導出する。
【解決手段】項目対組合せ抽出部15Bにより、これら項目のうちから当該出現頻度の大きい項目を抽出し、抽出したこれら項目からなるすべての項目対ごとに、当該項目対を構成する2つの項目に属する単語が同時に出現する頻度を示す共起度を算出して、これら項目対のうちから共起度の大きい項目対を抽出し、抽出したこれら項目対のすべての組合せごとに共起度を算出して、これら組合せのうちから当該共起度の大きい組合せを抽出し、意味関係導出部により、項目対組合せ抽出部で抽出された組合せのうち異なる3つの項目を含む組合せを選択し、当該組合せに含まれる項目間の共起度の大小関係に基づいて、これら項目間の意味的関係を示す意味関係情報を導出する。
【選択図】 図1
【解決手段】項目対組合せ抽出部15Bにより、これら項目のうちから当該出現頻度の大きい項目を抽出し、抽出したこれら項目からなるすべての項目対ごとに、当該項目対を構成する2つの項目に属する単語が同時に出現する頻度を示す共起度を算出して、これら項目対のうちから共起度の大きい項目対を抽出し、抽出したこれら項目対のすべての組合せごとに共起度を算出して、これら組合せのうちから当該共起度の大きい組合せを抽出し、意味関係導出部により、項目対組合せ抽出部で抽出された組合せのうち異なる3つの項目を含む組合せを選択し、当該組合せに含まれる項目間の共起度の大小関係に基づいて、これら項目間の意味的関係を示す意味関係情報を導出する。
【選択図】 図1
Description
本発明は、自然言語処理技術に関し、特に故障対応やサービス企画などの業務で必要とされる情報を膨大なテキストデータから抽出するためのテキストマイニング技術に関する。
一般に、商品開発におけるユーザのアンケート分析、GoogleやYahoo等のポータルにおける用語検索、ブログやCGM(Consumer Generated Media)における人気用語検索、ニュース記事のキーワードによる分類、企業評判のための評価指標など、各種の自然言語処理では、収集した文集合からなるテキストデータに出現する単語の出現頻度を把握することにより、形態素解析技術を利用して、トレンドなどの知識を抽出している。
また、同じ意味で表現の異なる同義語や似たような意味を有する類義語を分類・関連付ける手法として、クラスタリング手法や2語間の共起関係を基本とした手法が検討されている。このような手法の1つとして、故障データを分析する際、曖昧検索では精度の低い同義語の分類を向上する手法がある(例えば、特許文献1など参照)。これは、単語類似性に着目した分析手法である。
これに対して、従来、通信サービス提供時に蓄積される膨大な量のテキストデータを対象に、通信サービスの特徴を捉えたカテゴリおよびそのカテゴリを構成する項目(キーワード)に基づいて、テキストデータに内在する知識を抽出する手法が提案されている(例えば、非特許文献1など参照)。
M. Iwashita et al.:Using Co-Occurrence to classify unstructured data in telecommunication services, ICE-B 2008, pp.12-17 (2008)
川谷孝彦:「多文書間の共通性分析による文書クラスタリング」、情報処理学会、自然言語処理研究会、154-14(2003.3.7)、pp.93-100、2003
秋葉泰弘他:「意味的等価性検証に基づく記述式回答文の採点法」、情報処理学会、研究報告、2006-NL-174(6)(2006.7.27)、pp.31-35、2006
このような従来技術は、テキストデータがどのような知識を内在しているかを項目間の共起性に基づき判定し、故障個所と故障事象を分類するのに有効である。特に2項目間については、例えば「インターネット」と「接続」では「インターネットに接続できない」、「モデム」と「設定」では「モデムの設定ができない」、「モデムの設定がおかしく通信ができない」といったように、テキストデータ自身の意味を的確に表現可能であった。
しかしながら、3項目以上になると、対象となる項目が複雑に関係しているため、このような従来の手法では、テキストデータの持つ特徴を踏まえて、テキストデータ自身の意味を適切に表現できないことがある。
しかしながら、3項目以上になると、対象となる項目が複雑に関係しているため、このような従来の手法では、テキストデータの持つ特徴を踏まえて、テキストデータ自身の意味を適切に表現できないことがある。
例えば、対象となるテキストデータについて、「PC」と「設定」、「モデム」と「設定」、「PC」と「モデム」という3つの項目対の共起度が大きい場合、このテキストデータの分析結果として、「PC」もしくは「モデム」の「設定」に問題があること、を意味していることがわかる。しかし、実際には、何らかの原因で「PC」にトラブルが発生し、「モデム」の「設定」を再度実施する必要があったり、「モデム」の「設定」は、通常「PC」から行うが、「PC」から入力する際の操作ミスなどにトラブルの原因があることも少なくない。従来の手法では、このような異なる3つ以上の単語間の意味関係を的確に導出することはできない。
本発明はこのような課題を解決するためのものであり、通信サービス提供時に得られるテキストデータからその特徴として抽出した単語間の意味関係を的確に導出できる技術を提供することを目的としている。
このような目的を達成するために、本発明にかかる意味解析装置は、通信サービス提供時に得られる文集合からなるテキストデータを意味的に解析することにより当該テキストデータに内在する知識を抽出する意味解析装置であって、解析対象となるテキストデータを入力するテキスト入力部と、テキストデータに含まれる各単語を当該通信サービスの特徴に基づき分類する際に用いる複数のカテゴリと、これらカテゴリごとに設けられた、当該カテゴリに属する単語を当該通信サービスに関する構成およびサービスに基づき細分類する際に用いる複数の項目とを含む分類情報とを記憶する記憶部と、テキストデータに含まれる各単語の出現頻度を各カテゴリの項目ごとに算出する出現頻度算出部と、項目のうちから当該出現頻度の大きい項目を抽出し、抽出したこれら項目からなるすべての項目対ごとに、当該項目対を構成する2つの項目に属する単語が同時に出現する頻度を示す共起度を算出して、これら項目対のうちから共起度の大きい項目対を抽出し、抽出したこれら項目対のすべての組合せごとに共起度を算出して、これら組合せのうちから当該共起度の大きい組合せを抽出する項目対組合せ抽出部と、項目対組合せ抽出部で抽出された組合せのうち異なる3つの項目を含む組合せを選択し、当該組合せに含まれる項目間の共起度の大小関係に基づいて、これら項目間の意味的関係を示す意味関係情報を導出する意味関係導出部とを備えている。
この際、項目対組合せ抽出部で、項目を抽出する際は、当該項目のカテゴリに対して予め設定されている規定数としきい値とに基づき、出現頻度が当該しきい値以上の項目を出現頻度の大きい順に当該規定数だけ項目を抽出し、項目対を抽出する際は、当該項目対をなす各項目のカテゴリの組合せに対して予め設定されている規定数としきい値とに基づき、出現頻度が当該しきい値以上の項目対を出現頻度の大きい順に当該規定数だけ抽出するようにしてもよい。
また、カテゴリに、当該通信サービスに関する構成およびサービスを示すカテゴリと、これら構成およびサービスで発生する事象を示すカテゴリとを含むようにしてもよい。
また、意味関係導出部で導出された意味関係情報と、当該意味関係情報に含まれる各項目に対応する単語とから、当該意味関係情報と対応する知識を示す解析結果文を再構築する意味再構築部をさらに備えてもよい。
また、意味関係導出部で導出された意味関係情報と、当該意味関係情報に含まれる各項目に対応する単語とから、当該意味関係情報と対応する知識を示す解析結果文を再構築する意味再構築部をさらに備えてもよい。
また、本発明にかかる意味解析方法は、通信サービス提供時に得られる文集合からなるテキストデータを意味的に解析することにより当該テキストデータに内在する知識を抽出する意味解析装置で用いられる意味解析方法であって、テキスト入力部が、解析対象となるテキストデータを入力する入力ステップと、記憶部が、テキストデータに含まれる各単語を当該通信サービスの特徴に基づき分類する際に用いる複数のカテゴリと、これらカテゴリごとに設けられた、当該カテゴリに属する単語を当該通信サービスに関する構成およびサービスに基づき細分類する際に用いる複数の項目とを含む分類情報とを記憶する記憶ステップと、出現頻度算出部が、テキストデータに含まれる各単語の出現頻度を各カテゴリの項目ごとに算出する出現頻度算出ステップと、項目対組合せ抽出部が、項目のうちから当該出現頻度の大きい項目を抽出し、抽出したこれら項目からなるすべての項目対ごとに、当該項目対を構成する2つの項目に属する単語が同時に出現する頻度を示す共起度を算出して、これら項目対のうちから共起度の大きい項目対を抽出し、抽出したこれら項目対のすべての組合せごとに共起度を算出して、これら組合せのうちから当該共起度の大きい組合せを抽出する項目対組合せ抽出ステップと、意味関係導出部が、項目対組合せ抽出部で抽出された組合せのうち異なる3つの項目を含む組合せを選択し、当該組合せに含まれる項目間の共起度の大小関係に基づいて、これら項目間の意味的関係を示す意味関係情報を導出する意味関係導出部ステップとを備えている。
この際、項目対組合せ抽出ステップとして、項目を抽出する際は、当該項目のカテゴリに対して予め設定されている規定数としきい値とに基づき、出現頻度が当該しきい値以上の項目を出現頻度の大きい順に当該規定数だけ項目を抽出し、項目対を抽出する際は、当該項目対をなす各項目のカテゴリの組合せに対して予め設定されている規定数としきい値とに基づき、出現頻度が当該しきい値以上の項目対を出現頻度の大きい順に当該規定数だけ抽出するステップを含むようにしてもよい。
また、カテゴリに、当該通信サービスに関する構成およびサービスを示すカテゴリと、これら構成およびサービスで発生する事象を示すカテゴリとを含むようにしてもよい。
また、意味再構築部が、意味関係導出部で導出された意味関係情報と、当該意味関係情報に含まれる各項目に対応する単語とから、当該意味関係情報と対応する知識を示す解析結果文を再構築する意味再構築ステップをさらに備えてもよい。
また、意味再構築部が、意味関係導出部で導出された意味関係情報と、当該意味関係情報に含まれる各項目に対応する単語とから、当該意味関係情報と対応する知識を示す解析結果文を再構築する意味再構築ステップをさらに備えてもよい。
また、本発明にかかるプログラムは、コンピュータを、前述した意味解析装置の各部として動作させるためのプログラムである。
本発明によれば、通信サービス提供時に得られる文集合からなるテキストデータから、共起性を持つ異なる3つの項目対組合せを効率よく抽出できるとともに、これら項目間の意味的関係を的確に導出することが可能となる。
これにより、テキストデータに内在する、通信サービスでの発生事象に関する知識の内容を、詳細に抽出することができる。このため、通信サービスに関するサービス企画や障害対応などの業務内容を大幅に向上させることが可能となる。
これにより、テキストデータに内在する、通信サービスでの発生事象に関する知識の内容を、詳細に抽出することができる。このため、通信サービスに関するサービス企画や障害対応などの業務内容を大幅に向上させることが可能となる。
次に、本発明の一実施の形態について図面を参照して説明する。
[本実施の形態の構成]
まず、図1を参照して、本実施の形態にかかる意味解析装置について説明する。図1は、本実施の形態にかかる意味解析装置の構成を示すブロック図である。
[本実施の形態の構成]
まず、図1を参照して、本実施の形態にかかる意味解析装置について説明する。図1は、本実施の形態にかかる意味解析装置の構成を示すブロック図である。
この意味解析装置10は、全体としてサーバやパーソナルコンピュータなどの情報処理装置からなり、通信サービス提供時に得られた分析対象となる文集合からなるテキストデータ20を入力し、これら各文に含まれる各単語の共起度に基づき、通信サービスで発生する各種事象に関する知識として、これら文集合に含まれているいくつかの意味を解析する機能を有している。
意味解析装置10には、主な機能部として、テキスト入力部11、操作入力部12、画面表示部13、記憶部14、および演算処理部15が設けられている。
意味解析装置10には、主な機能部として、テキスト入力部11、操作入力部12、画面表示部13、記憶部14、および演算処理部15が設けられている。
テキスト入力部11は、専用のデータ入力回路などからなり、外部装置(図示せず)や記録媒体から各種データを取得することによりテキストデータ20を入力する機能を有している。テキストデータ20の具体例としては、通信サービスの利用者からサービス提供者に対して寄せられた電話、メール、Web書き込み、アンケート結果などのテキスト文の集まりである。
操作入力部12は、キーボードやマウスなどの操作入力装置からなり、オペレータ操作を検出して演算処理部15へ出力する機能を有している。この操作入力部12をテキスト入力部11として利用し、オペレータ操作によりテキストデータ20を入力してもよい。
画面表示部13は、LCDやPDPなどの画面表示装置からなり、演算処理部15からの指示に応じて、操作メニューや解析結果などの各種情報を画面表示する機能を有している。
画面表示部13は、LCDやPDPなどの画面表示装置からなり、演算処理部15からの指示に応じて、操作メニューや解析結果などの各種情報を画面表示する機能を有している。
記憶部14は、ハードディスクや半導体メモリなどの記憶装置からなり、演算処理部15での処理動作に必要な処理情報やプログラム14Pを記憶する機能を有している。
プログラム14Pは、予め外部装置や記録媒体から読み込まれて記憶部14に保存され、演算処理部15により読み出されて実行されていることにより、意味解析処理などに用いられる各種処理部を実現するためのプログラムである。
記憶部14で記憶する主な処理情報として、辞書データベース(以下、辞書DBという)14Aと、抽出設定情報14Bがある。
プログラム14Pは、予め外部装置や記録媒体から読み込まれて記憶部14に保存され、演算処理部15により読み出されて実行されていることにより、意味解析処理などに用いられる各種処理部を実現するためのプログラムである。
記憶部14で記憶する主な処理情報として、辞書データベース(以下、辞書DBという)14Aと、抽出設定情報14Bがある。
辞書DB14Aは、テキストデータ20に含まれる各単語を当該通信サービスの特徴に基づき分類する際に用いる複数のカテゴリと、これらカテゴリごとに設けられた、当該カテゴリに属する単語を当該通信サービスに関する構成およびサービスに基づき細分類する際に用いる複数の項目(キーワード)と、これら項目と等しい意味で使用される単語群とを記憶する機能を有している。
図2は、カテゴリおよび項目の設定例を示す説明図である。ここでは、通信サービスの特徴に基づき、単語を大分類する際に用いるカテゴリとして、A,Bという2つのカテゴリが予め設定されている。カテゴリAは、通信サービスの提供に用いる装置やサービスなどの構成要素に関する単語を包含する大分類であり、カテゴリBは、通信サービスの各構成要素で発生する事象や当該事象に対する対処の内容に関する単語を包含する大分類である。
また、カテゴリA,Bは、プロバイダ、通信事業ネットワーク、ホームゲートウェイ、端末装置、および提供サービスの5つに中分類されており、これら中分類に含まれる各構成要素を再分類するために個別の項目が設定されている。
図2の例では、カテゴリAの構成要素のうち「インターネットサービス」、「電話機」、「VoIP」、「PC」、「ホームゲートウェイ」のそれぞれに、A1,A2,A3,A4,A5という項目が設定されている。また、カテゴリBの発生事象・対処内容のうち「設定ミス」、「ランプ点滅」、「電源不良」、「セキュリティ対策」、「電源ON/OFF」のそれぞれに、B1,B2,B3,B4,B5という項目が設定されている。
図2の例では、カテゴリAの構成要素のうち「インターネットサービス」、「電話機」、「VoIP」、「PC」、「ホームゲートウェイ」のそれぞれに、A1,A2,A3,A4,A5という項目が設定されている。また、カテゴリBの発生事象・対処内容のうち「設定ミス」、「ランプ点滅」、「電源不良」、「セキュリティ対策」、「電源ON/OFF」のそれぞれに、B1,B2,B3,B4,B5という項目が設定されている。
抽出設定情報14Bは、テキストデータ20から算出した各カテゴリの項目ごとの出現頻度に基づき、同一カテゴリおよび別カテゴリの項目対の組合せを抽出際に用いる各種設定情報からなり、主な設定情報としては、カテゴリCxごとの規定値Nx、カテゴリ対Cx,Cyごと規定値Nxy、およびカテゴリ共通のしきい値α1としきい値α2がある。
規定値Nxは、カテゴリCxごとに同一カテゴリ項目対Txijを生成するための項目Txi,Txjを抽出する際の上限規定数である。
規定値Nxyは、カテゴリ対Cx,Cyごとに別カテゴリ項目対Txiyjを生成するための項目Txi,Tyjを抽出する際の上限規定数である。
規定値Nxyは、カテゴリ対Cx,Cyごとに別カテゴリ項目対Txiyjを生成するための項目Txi,Tyjを抽出する際の上限規定数である。
しきい値α1は、複数の項目対のうちから、項目対組合せを生成するための項目対を、これら項目対の共起度に基づき抽出するための共起度しきい値である。このしきい値α1は、同一カテゴリ項目対および別カテゴリ項目対のいずれの共起度に対しても共通して適用される。
しきい値α2は、複数の項目対組合せのうちから、意味関係導出の候補となる項目対組合せを、これら項目対組合せの共起度に基づき抽出するための共起度しきい値である。このしきい値α2は、同一カテゴリ組合せおよび別カテゴリ組合せのいずれの共起度に対しても共通して適用される。
しきい値α2は、複数の項目対組合せのうちから、意味関係導出の候補となる項目対組合せを、これら項目対組合せの共起度に基づき抽出するための共起度しきい値である。このしきい値α2は、同一カテゴリ組合せおよび別カテゴリ組合せのいずれの共起度に対しても共通して適用される。
演算処理部15は、CPUなどのマイクロプロセッサとその周辺回路を有し、記憶部14のプログラム14Pを読み込んで実行することより、意味解析処理を行うための各種処理部を実現する機能を有している。
演算処理部15で実現される主な処理部として、出現頻度算出部15A、項目対組合せ抽出部15B、意味関係導出部15C、および意味再構築部15Dがある。
演算処理部15で実現される主な処理部として、出現頻度算出部15A、項目対組合せ抽出部15B、意味関係導出部15C、および意味再構築部15Dがある。
出現頻度算出部15Aは、辞書DB14Aを参照して、テキスト入力部11で入力されたテキストデータ20に含まれる単語を、予め設定されているカテゴリおよび項目で分類し、各カテゴリの項目ごとにこれら単語の出現頻度を算出する機能を有している。
項目対組合せ抽出部15Bは、抽出設定情報14Bを参照して、同一カテゴリの項目対からなる同一カテゴリ組合せのうち共起度が大きい同一カテゴリ組合せを抽出する機能と、抽出設定情報14Bを参照して、別カテゴリの項目対からなる別カテゴリ組合せのうち共起度が大きい別カテゴリ組合せを抽出する機能とを有している。
このうち、同一カテゴリ組合せを抽出する機能は、カテゴリごとに当該カテゴリの規定数だけ出現頻度の大きい項目をそれぞれ抽出する機能と、抽出した項目のうち同一カテゴリに含まれる2つの項目からなる同一カテゴリ項目対ごとに共起度を算出する機能と、これら同一カテゴリ項目対のうちから当該共起度がしきい値以上の同一カテゴリ項目対を抽出する機能と、抽出した同一カテゴリ項目対からなる同一カテゴリ組合せごとに共起度を算出する機能と、これら同一カテゴリ組合せのうちから当該共起度がしきい値以上の同一カテゴリ組合せを抽出する機能とから構成される。
また、別カテゴリ組合せを抽出する機能は、異なるカテゴリからなるカテゴリ対ごとに当該カテゴリ別の規定数だけ出現頻度の大きい項目をそれぞれ選択する機能と、抽出した項目のうち別カテゴリに含まれる2つの項目からなる別カテゴリ項目対ごとに共起度を算出する機能と、これら別カテゴリ項目対のうちから当該共起度がしきい値以上の別カテゴリ項目対を抽出する機能と、抽出した別カテゴリ項目対からなる別カテゴリ組合せごとに共起度を算出する機能と、これら別カテゴリ組合せのうちから当該共起度がしきい値以上の別カテゴリ組合せを抽出する機能とから構成される。
意味関係導出部15Cは、項目対組合せ抽出部15Bで抽出された同一カテゴリ組合せおよび別カテゴリ組合せのうち、少なくとも互いに異なる3つの項目を含む組合せを選択する機能と、選択された組合せごとに、当該組合せを構成する項目間の共起度の大小関係に基づいて、これら項目間の意味的関係を示す意味関係情報(意味関係式)を導出する機能とを有している。この意味関係情報の表現方法については、項目間の関係を示す意味関係式であってもよく、単なる項目や当該項目を示す記号や番号の並びからなる意味関係データであってもよい。
意味再構築部15Dは、辞書DB14Aを参照して、意味関係導出部15Cで導出された意味関係情報に基づき、テキストデータ20の意味解析結果として、テキストデータ20に含まれる知識を示す解析結果文を再構築する機能を有している。
[本実施の形態の動作]
次に、図3を参照して、本実施の形態にかかる意味解析装置の動作について説明する。図3は、本実施の形態にかかる意味解析装置の意味解析処理を示すフローチャートである。
意味解析装置10の演算処理部15は、操作入力部12で検出されたオペレータの処理開始操作に応じて、図3の意味解析処理の実行を開始する。
次に、図3を参照して、本実施の形態にかかる意味解析装置の動作について説明する。図3は、本実施の形態にかかる意味解析装置の意味解析処理を示すフローチャートである。
意味解析装置10の演算処理部15は、操作入力部12で検出されたオペレータの処理開始操作に応じて、図3の意味解析処理の実行を開始する。
まず、演算処理部15は、テキスト入力部11により解析対象となるテキストデータ10を取得し(ステップ100)、出現頻度算出部15Aにより、記憶部14の辞書DB14Aを参照して、テキストデータ20に含まれる単語を、予め設定されているカテゴリおよび項目で分類し、各カテゴリの項目ごとにこれら単語の出現頻度を算出する(ステップ101)。
次に、演算処理部15は、項目対組合せ抽出部15Bにより、抽出設定情報14Bを参照して、後述の図4に示す同一カテゴリ組合せ抽出処理を実行することにより、同一カテゴリの項目対からなる同一カテゴリ組合せのうち共起度が大きい同一カテゴリ組合せを抽出する(ステップ102)。
続いて、演算処理部15は、項目対組合せ抽出部15Bにより、抽出設定情報14Bを参照して、後述の図5に示す別カテゴリ項目対組合せ抽出処理を実行することにより、別カテゴリの項目対からなる別カテゴリ組合せのうち共起度が大きい別カテゴリ組合せを抽出する(ステップ103)。
続いて、演算処理部15は、項目対組合せ抽出部15Bにより、抽出設定情報14Bを参照して、後述の図5に示す別カテゴリ項目対組合せ抽出処理を実行することにより、別カテゴリの項目対からなる別カテゴリ組合せのうち共起度が大きい別カテゴリ組合せを抽出する(ステップ103)。
その後、演算処理部15は、意味関係導出部15Cにより、項目対組合せ抽出部15Bで抽出された同一カテゴリ組合せおよび別カテゴリ組合せのうち、異なる3つの項目を含む組合せを処理対象として選択する(ステップ104)。
次に、意味関係導出部15Cは、これら選択された組合せごとに、当該組合せを構成する項目間の共起度を比較し(ステップ105)、これら共起度の大小関係に基づいて、これら項目間の意味的関係を示す意味関係情報(意味関係式)を導出する(ステップ106)。
次に、意味関係導出部15Cは、これら選択された組合せごとに、当該組合せを構成する項目間の共起度を比較し(ステップ105)、これら共起度の大小関係に基づいて、これら項目間の意味的関係を示す意味関係情報(意味関係式)を導出する(ステップ106)。
続いて、演算処理部15は、意味再構築部15Dにより、辞書DB14Aを参照して、意味関係導出部15Cで導出された意味関係情報に基づき、テキストデータ20の意味解析結果を示す解析結果文を再構築して、画面表示部13で画面表示し、あるいは記憶部14へ意味解析結果情報として保存し(ステップ107)、一連の意味解析処理を終了する。
[同一カテゴリ組合せ抽出処理]
次に、図4〜図6を参照して、同一カテゴリ組合せ抽出処理について詳細に説明する。図4は、同一カテゴリ組合せ抽出処理を示すフローチャートである。図5は、同一カテゴリ項目間の共起関係を示す説明図である。図6は、同一カテゴリ項目対間の共起関係を示す説明図である。
次に、図4〜図6を参照して、同一カテゴリ組合せ抽出処理について詳細に説明する。図4は、同一カテゴリ組合せ抽出処理を示すフローチャートである。図5は、同一カテゴリ項目間の共起関係を示す説明図である。図6は、同一カテゴリ項目対間の共起関係を示す説明図である。
演算処理部15の項目対組合せ抽出部15Bは、図3のステップ103において、図4の同一カテゴリ組合せ抽出処理を実行する。
まず、項目対組合せ抽出部15Bは、カテゴリCxごとに、当該カテゴリの規定数Kxだけ、出現頻度Pxiの大きい項目Txiをそれぞれ抽出し(ステップ110)、抽出した項目のうち同一カテゴリCxに含まれる2つの項目Txi,Txjからなる同一カテゴリ項目対Txijごとに共起度Pxijを算出する(ステップ111)。
まず、項目対組合せ抽出部15Bは、カテゴリCxごとに、当該カテゴリの規定数Kxだけ、出現頻度Pxiの大きい項目Txiをそれぞれ抽出し(ステップ110)、抽出した項目のうち同一カテゴリCxに含まれる2つの項目Txi,Txjからなる同一カテゴリ項目対Txijごとに共起度Pxijを算出する(ステップ111)。
共起度Pxijは、項目Txi,Txjのいずれかが含まれる文のうち、項目Txi,Txjの両方が同一文に含まれる割合を示している。
具体的には、テキストデータ20内の各文においてカテゴリCxの項目Txi,Txjが単独で出現する回数(出現頻度)をNxi,Nxjとし、これら項目Txj,Txjが同一文内で出現する回数(出現頻度)をNxijとした場合、項目Txi,Txjすなわち同一カテゴリ項目対Txijの共起度Pxijは、次の式(1)により算出される。
Pxij=Nxij/(Nxi+Nxj−Nxij) …(1)
具体的には、テキストデータ20内の各文においてカテゴリCxの項目Txi,Txjが単独で出現する回数(出現頻度)をNxi,Nxjとし、これら項目Txj,Txjが同一文内で出現する回数(出現頻度)をNxijとした場合、項目Txi,Txjすなわち同一カテゴリ項目対Txijの共起度Pxijは、次の式(1)により算出される。
Pxij=Nxij/(Nxi+Nxj−Nxij) …(1)
図5では、図2で述べたカテゴリAに関する同一カテゴリ項目対の共起度算出例が示されている。ここでは、カテゴリAの規定値Nxが「5」の場合を前提として、項目Txiとして項目A1,A2,A3,A4,A5が抽出されている。そしてこれら項目が行方向および列方向に配置され、2つの項目Txi,Txjからなる同一カテゴリ項目対Txijごとに共起度Pxijが示されている。例えば、項目A1と項目A2の項目が交差する欄には、項目A1,A2の同一カテゴリ項目対A1&A2に関する共起度「0.22」が記載されている。なお、本発明では、演算子&はその前後に記載された2つの項目からなる項目対を示すものとする。
この後、項目対組合せ抽出部15Bは、これら同一カテゴリ項目対Txijのうちから当該共起度Pxijがしきい値α1以上の同一カテゴリ項目対Txijを抽出する(ステップ112)。
図5の例では、項目対A4&A5,A1&A5,A1&A2,A1&A4に関する共起度がそれぞれ「0.28」,「0.27」,「0.22」,「0.22」となっており、しきい値α1が「0.2」の場合には、カテゴリAに関する同一カテゴリ組合せを生成するための項目対として、これら4つの項目対が抽出される。
図5の例では、項目対A4&A5,A1&A5,A1&A2,A1&A4に関する共起度がそれぞれ「0.28」,「0.27」,「0.22」,「0.22」となっており、しきい値α1が「0.2」の場合には、カテゴリAに関する同一カテゴリ組合せを生成するための項目対として、これら4つの項目対が抽出される。
続いて、項目対組合せ抽出部15Bは、ステップ112で抽出した同一カテゴリ項目対のうち2つの同一カテゴリ項目対Txij,Txmnからなる同一カテゴリ組合せTxijmnごとに、共起度Pxijmnを算出する(ステップ113)。
図6の例では、図5で抽出した項目対A4&A5,A1&A5,A1&A2,A1&A4が行方向および列方向に配置され、2つの項目対Txij,Txmnからなる同一カテゴリ組合せTxijmnごとに共起度Pxijmnが示されている。例えば、項目対A1&A2と項目A1&A4の項目が交差する欄には、項目対A1&A2,A1&A4の同一カテゴリ組合せA1&A2,A1&A4=A1&(A2 and A4)に関する共起度「0.22」が記載されている。なお、本発明では、演算子andは、その前後に記載された2つの項目を展開する意味を示す。
図6の例では、図5で抽出した項目対A4&A5,A1&A5,A1&A2,A1&A4が行方向および列方向に配置され、2つの項目対Txij,Txmnからなる同一カテゴリ組合せTxijmnごとに共起度Pxijmnが示されている。例えば、項目対A1&A2と項目A1&A4の項目が交差する欄には、項目対A1&A2,A1&A4の同一カテゴリ組合せA1&A2,A1&A4=A1&(A2 and A4)に関する共起度「0.22」が記載されている。なお、本発明では、演算子andは、その前後に記載された2つの項目を展開する意味を示す。
共起度Pxijmnは、項目Txi,Txj,Txm,Txnのいずれかが含まれる文のうち、項目Txi,Txj,Txm,Txnのすべてが同一文に含まれる割合を示している。
具体的には、テキストデータ20内の各文においてカテゴリCxの項目Txi,Txj,Txm,Txnが単独で出現する回数(出現頻度)をNxi,Nxj,Nxm,Nxnとし、これら項目Txj,Txj,Txm,Txnが同一文内で出現する回数(出現頻度)をNxijmnとした場合、項目Txi,Txj,Txm,Txnすなわち同一カテゴリ組合せTxijmnの共起度Pxijmnは、次の式(2)により算出される。
Pxijmn=Nxijmn/(Nxi+Nxj+Nxm+Nxn−Nxijmn) …(2)
具体的には、テキストデータ20内の各文においてカテゴリCxの項目Txi,Txj,Txm,Txnが単独で出現する回数(出現頻度)をNxi,Nxj,Nxm,Nxnとし、これら項目Txj,Txj,Txm,Txnが同一文内で出現する回数(出現頻度)をNxijmnとした場合、項目Txi,Txj,Txm,Txnすなわち同一カテゴリ組合せTxijmnの共起度Pxijmnは、次の式(2)により算出される。
Pxijmn=Nxijmn/(Nxi+Nxj+Nxm+Nxn−Nxijmn) …(2)
この後、項目対組合せ抽出部15Bは、これら同一カテゴリ組合せTxijmnのうちから当該共起度Pxijmnがしきい値α2以上の同一カテゴリ組合せTxijmnを抽出し(ステップ114)、一連の同一カテゴリ組合せ抽出処理を終了する。
図6の例では、項目対組合せA1&A5とA4&A5,A1&A2とA1&A4,A1&A4とA1&A5,A1&A4とA4&A5に関する共起度がそれぞれ「0.22」,「0.21」,「0.21」,「0.20」となっており、しきい値α2が「0.2」の場合には、カテゴリAに関する同一カテゴリ組合せとして、これら4つの項目対組合せが抽出される。
図6の例では、項目対組合せA1&A5とA4&A5,A1&A2とA1&A4,A1&A4とA1&A5,A1&A4とA4&A5に関する共起度がそれぞれ「0.22」,「0.21」,「0.21」,「0.20」となっており、しきい値α2が「0.2」の場合には、カテゴリAに関する同一カテゴリ組合せとして、これら4つの項目対組合せが抽出される。
[別カテゴリ組合せ抽出処理]
次に、図7〜図9を参照して、別カテゴリ組合せ抽出処理について詳細に説明する。図7は、別カテゴリ組合せ抽出処理を示すフローチャートである。図8は、別カテゴリ項目間の共起関係を示す説明図である。図9は、別カテゴリ項目対間の共起関係を示す説明図である。
次に、図7〜図9を参照して、別カテゴリ組合せ抽出処理について詳細に説明する。図7は、別カテゴリ組合せ抽出処理を示すフローチャートである。図8は、別カテゴリ項目間の共起関係を示す説明図である。図9は、別カテゴリ項目対間の共起関係を示す説明図である。
演算処理部15の項目対組合せ抽出部15Bは、図3のステップ104において、図7の別カテゴリ組合せ抽出処理を実行する。
まず、項目対組合せ抽出部15Bは、カテゴリCxとカテゴリCyのカテゴリ対ごとに、当該カテゴリ対の規定数Kxyずつ、出現頻度Pxi,Pyjの大きい項目Txi,Tyjをそれぞれ抽出し(ステップ120)、抽出した別カテゴリCx,Cy含まれる2つの項目Txi,Txjからなる別カテゴリ項目対Txiyjごとに共起度Pxiyjを算出する(ステップ121)。
まず、項目対組合せ抽出部15Bは、カテゴリCxとカテゴリCyのカテゴリ対ごとに、当該カテゴリ対の規定数Kxyずつ、出現頻度Pxi,Pyjの大きい項目Txi,Tyjをそれぞれ抽出し(ステップ120)、抽出した別カテゴリCx,Cy含まれる2つの項目Txi,Txjからなる別カテゴリ項目対Txiyjごとに共起度Pxiyjを算出する(ステップ121)。
共起度Pxijは、項目Txi,Txjのいずれかが含まれる文のうち、項目Txi,Txjの両方が同一文に含まれる割合を示している。
具体的には、テキストデータ20内の各文において、カテゴリCxの項目Txiが単独で出現する回数(出現頻度)をNxiとし、カテゴリCyの項目Tyjが単独で出現する回数(出現頻度)をNyjとし、これら項目Txi,Tyjが同一文内で出現する回数(出現頻度)をNxiyjとした場合、項目Txi,Tyjすなわち別カテゴリ項目対Txiyjの共起度Pxiyjは、次の式(3)により算出される。
Pxiyj=Nxiyj/(Nxi+Nyj−Nxiyj) …(3)
具体的には、テキストデータ20内の各文において、カテゴリCxの項目Txiが単独で出現する回数(出現頻度)をNxiとし、カテゴリCyの項目Tyjが単独で出現する回数(出現頻度)をNyjとし、これら項目Txi,Tyjが同一文内で出現する回数(出現頻度)をNxiyjとした場合、項目Txi,Tyjすなわち別カテゴリ項目対Txiyjの共起度Pxiyjは、次の式(3)により算出される。
Pxiyj=Nxiyj/(Nxi+Nyj−Nxiyj) …(3)
図8では、図2で述べたカテゴリAに関する別カテゴリ項目対の共起度算出例が示されている。ここでは、カテゴリA,Bの組合せに対する規定値Nxyが「5」の場合を前提として、項目Txiとして項目A1,A2,A3,A4,A5が抽出され、項目Tyjとして項目B1,B2,B3,B4,B5が抽出されている。そしてこれら項目が行方向および列方向に配置され、2つの項目Txi,Tyjからなる別カテゴリ項目対Txiyjごとに共起度Pxiyjが示されている。例えば、項目A1と項目B1の項目が交差する欄には、項目A1,B2の別カテゴリ項目対A1&B2に関する共起度「0.55」が記載されている。
この後、項目対組合せ抽出部15Bは、これら別カテゴリ項目対Txiyjのうちから当該共起度Pxiyjがしきい値α1以上の別カテゴリ項目対Txiyjを抽出する(ステップ122)。
図5の例では、項目対A5&B1,A1&B2,A1&B1,A4&B1,A5&B3,A3&B2,A5&B2,A4&B4に関する共起度がそれぞれ「0.59」,「0.58」,「0.55」,「0.47」,「0.43」,「0.41」,「0.41」,「0.38」となっており、しきい値α1が「0.2」の場合には、カテゴリAに関する同一カテゴリ組合せを生成するための項目対として、これら8つの項目対が抽出される。
図5の例では、項目対A5&B1,A1&B2,A1&B1,A4&B1,A5&B3,A3&B2,A5&B2,A4&B4に関する共起度がそれぞれ「0.59」,「0.58」,「0.55」,「0.47」,「0.43」,「0.41」,「0.41」,「0.38」となっており、しきい値α1が「0.2」の場合には、カテゴリAに関する同一カテゴリ組合せを生成するための項目対として、これら8つの項目対が抽出される。
続いて、項目対組合せ抽出部15Bは、ステップ122で抽出した別カテゴリ項目対のうち2つの別カテゴリ項目対Txij,Tymnからなる別カテゴリ組合せTxijymnごとに、共起度Pxijymnを算出する(ステップ123)。
図9の例では、図5で抽出した項目対A5&B1,A1&B2,A1&B1,A4&B1,A5&B3,A3&B2,A5&B2,A4&B4が行方向および列方向に配置され、2つの項目対Txij,Txmnからなる別カテゴリ組合せTxijymnごとに共起度Pxijmnが示されている。例えば、項目対A4&B1と項目A5&B1の項目が交差する欄には、項目対A4&B1,A5&B1の別カテゴリ組合せA4&B1,A5&B1=(A4 and A5)&B1に関する共起度「0.36」が記載されている。
図9の例では、図5で抽出した項目対A5&B1,A1&B2,A1&B1,A4&B1,A5&B3,A3&B2,A5&B2,A4&B4が行方向および列方向に配置され、2つの項目対Txij,Txmnからなる別カテゴリ組合せTxijymnごとに共起度Pxijmnが示されている。例えば、項目対A4&B1と項目A5&B1の項目が交差する欄には、項目対A4&B1,A5&B1の別カテゴリ組合せA4&B1,A5&B1=(A4 and A5)&B1に関する共起度「0.36」が記載されている。
共起度Pxijymnは、項目Txi,Txj,Tym,Tynのいずれかが含まれる文のうち、項目Txi,Txj,Tym,Tynのすべてが同一文に含まれる割合を示している。
具体的には、テキストデータ20内の各文においてカテゴリCxの項目Txi,Txj,カテゴリCyのTxm,Txnが単独で出現する回数(出現頻度)をNxi,Nxj,Nym,Nynとし、項目Txj,Txj,Tym,Tynが同一文内で出現する回数(出現頻度)をNxijymnとした場合、項目Txi,Txj,Tym,Tynすなわち別カテゴリ組合せTxijymnの共起度Pxijymnは、次の式(4)により算出される。
Pxijymn=Nxijymn/(Nxi+Nxj+Nym+Nyn−Nxijymn) …(4)
具体的には、テキストデータ20内の各文においてカテゴリCxの項目Txi,Txj,カテゴリCyのTxm,Txnが単独で出現する回数(出現頻度)をNxi,Nxj,Nym,Nynとし、項目Txj,Txj,Tym,Tynが同一文内で出現する回数(出現頻度)をNxijymnとした場合、項目Txi,Txj,Tym,Tynすなわち別カテゴリ組合せTxijymnの共起度Pxijymnは、次の式(4)により算出される。
Pxijymn=Nxijymn/(Nxi+Nxj+Nym+Nyn−Nxijymn) …(4)
この後、項目対組合せ抽出部15Bは、これら別カテゴリ組合せTxijymnのうちから当該共起度Pxijymnがしきい値α2以上の別カテゴリ組合せTxijymnを抽出し(ステップ124)、一連の別カテゴリ組合せ抽出処理を終了する。
図9の例では、項目対組合せA4&B1とA5&B1,A1&B1とA4&B1,A1&B1とA5&B1,A5&B2とA5&B3,A1&B2とA5&B2に関する共起度がそれぞれ「0.36」,「0.34」,「0.33」,「0.31」,「0.29」となっており、しきい値α2が「0.2」の場合には、カテゴリAに関する別カテゴリ組合せとして、これら5つの項目対組合せが抽出される。
図9の例では、項目対組合せA4&B1とA5&B1,A1&B1とA4&B1,A1&B1とA5&B1,A5&B2とA5&B3,A1&B2とA5&B2に関する共起度がそれぞれ「0.36」,「0.34」,「0.33」,「0.31」,「0.29」となっており、しきい値α2が「0.2」の場合には、カテゴリAに関する別カテゴリ組合せとして、これら5つの項目対組合せが抽出される。
[意味関係導出処理]
次に、図10および図11を参照して、意味関係導出処理について詳細に説明する。図10は、意味パターンを示す説明図である。図11は、項目対組合せ抽出結果を示す説明図である。
次に、図10および図11を参照して、意味関係導出処理について詳細に説明する。図10は、意味パターンを示す説明図である。図11は、項目対組合せ抽出結果を示す説明図である。
通信サービス提供時に発生した事象の内容を正確に表現する場合、図10の意味パターンS0に示すように、「Ax−Bx−Ay−By」の順に意味関係を持つ、異なる4つの項目Ax,Ay,Bx,Byに相当する単語で表現するのが望ましい。このうち、項目Ax,Ayは図2で述べたカテゴリAに属する項目であり、項目Axは事象が発生した構成要素を示し、項目Ayは発生事象の影響を受けた構成要素を示している。また、項目Bx,Byは、同じくカテゴリBに属する項目であり、項目Bxは発生事象の内容を示し、項目Byは発生事象に関連して発生した関連発生事象や発生事象に対する対応内容を示している。
これに対して、実際に収集したテキストデータ20の各文から抽出した項目組合せには、異なる4つの項目Ax,Ay,Bx,Byに相当する単語が1つの文にすべて含まれていることは少なく、これら4つの項目のうちのいずれかが欠けている場合が多い。この際、2つの項目だけを含むテキストデータについては、前述した従来の手法で意味を解析することが可能である。本発明は、従来の手法では難しかった異なる3つの項目を含むテキストデータの意味解析を実現する。
上記4つの項目から1つの項目が欠落して異なる3つの項目からなる意味パターンは、図10に示すように、S1,S2,S3,S4の4つのパターンとなる。ここでは、意味パターンS1,S2,S3,S4がそれぞれ「Ax−Bx−Ay」、「Ax−Ay−By」、「Ax−Bx−By」、「Bx−Ay−By」であるものとする。
これら意味パターンでは、前述した各項目が示す意味内容から考慮して、項目Ax,Bx間、および項目Ay,By間の意味関係は、項目Bx,Ay間の意味関係より強い意味関係すなわち共起度を持つことになる。
これら意味パターンでは、前述した各項目が示す意味内容から考慮して、項目Ax,Bx間、および項目Ay,By間の意味関係は、項目Bx,Ay間の意味関係より強い意味関係すなわち共起度を持つことになる。
本実施の形態では、抽出した項目対組合せに含まれる項目が属するカテゴリに基づき、当該項目対組合せと対応する意味パターンを選択するとともに、これら項目間の共起度を互いに比較することにより、当該項目対組合せに含まれる項目と意味パターン内の項目との対応関係を特定することにより、当該項目対組合せに含まれる意味内容を示す意味関係式を導出している。
具体的には、まず、項目組合せに含まれる異なる3つの項目のうち、他の2つの項目と比べてカテゴリが異なる1つの項目を主項目とし、この主項目がカテゴリBに属する場合には、意味パターンとしてS1,S2を選択し、主項目がカテゴリAに属する場合には、意味パターンとしてS3,S4を選択する。
続いて、主項目と他の2つの副項目との共起度を比較して、これら副項目のうちのいずれが主項目と意味的結びつきが強いか判定することにより、これら主項目および副項目が、意味パターン内のいずれの項目に相当するか特定する。
続いて、主項目と他の2つの副項目との共起度を比較して、これら副項目のうちのいずれが主項目と意味的結びつきが強いか判定することにより、これら主項目および副項目が、意味パターン内のいずれの項目に相当するか特定する。
以下、実例に基づき、これら意味パターンの導出処理について説明する。
演算処理部15の意味関係導出部15Cは、図3のステップ104において、項目対組合せ抽出部15Bで抽出された同一カテゴリ組合せおよび別カテゴリ組合せのうち、異なる3つの項目を含む組合せを選択する。ここでは、図11に示すように、5つの項目対組合せが選択されており、すべて別カテゴリ組合せから構成されている。
演算処理部15の意味関係導出部15Cは、図3のステップ104において、項目対組合せ抽出部15Bで抽出された同一カテゴリ組合せおよび別カテゴリ組合せのうち、異なる3つの項目を含む組合せを選択する。ここでは、図11に示すように、5つの項目対組合せが選択されており、すべて別カテゴリ組合せから構成されている。
これら項目対組合せのうち、まず、2番目の(A1 and A4)&B1の項目対組合せについて考察する。
意味関係導出部15Cは、図3のステップ105で、前処理として、当該項目対組合せに含まれる3つの項目が属するカテゴリを調べる。この例では、項目B1が主項目で項目A1,A4が副項目となるため、意味パターンS1,S2を候補として選択する。この時点では、項目B1がBx,Byのいずれと対応するのかわからず、項目A1,A4とAx,Ayとの対応関係もわからない。
意味関係導出部15Cは、図3のステップ105で、前処理として、当該項目対組合せに含まれる3つの項目が属するカテゴリを調べる。この例では、項目B1が主項目で項目A1,A4が副項目となるため、意味パターンS1,S2を候補として選択する。この時点では、項目B1がBx,Byのいずれと対応するのかわからず、項目A1,A4とAx,Ayとの対応関係もわからない。
続いて、意味関係導出部15Cは、同じくステップ105で、項目A1,B1間の共起度P(A1,B1)と項目A4,B1間の共起度P(A4,B1)とを比較し、続くステップ106において、この比較結果に応じて意味関係式を導出する。
P(A1,B1)がP(A4,B1)より大きい場合、図12に示すように、項目A1と項目B1との結びつきが強いことなる。この際、項目B1を項目Bxとした場合、意味パターンS1に基づいて、項目A1,A4は、それぞれ項目Ax,Ayに相当することになり、意味関係式として(A1&B1)→A4が導出される。また、項目B1を項目Byとした場合、意味パターンS3に基づいて、項目A1,A4は、それぞれ項目Ay,Axに相当することになり、意味関係式としてA4→(A1&B1)が導出される。
P(A1,B1)がP(A4,B1)より大きい場合、図12に示すように、項目A1と項目B1との結びつきが強いことなる。この際、項目B1を項目Bxとした場合、意味パターンS1に基づいて、項目A1,A4は、それぞれ項目Ax,Ayに相当することになり、意味関係式として(A1&B1)→A4が導出される。また、項目B1を項目Byとした場合、意味パターンS3に基づいて、項目A1,A4は、それぞれ項目Ay,Axに相当することになり、意味関係式としてA4→(A1&B1)が導出される。
一方、P(A1,B1)がP(A4,B1)より小さい場合、図13に示すように、項目A4と項目B1との結びつきが強いことなる。この際、項目B1を項目Bxとした場合、意味パターンS1に基づいて、項目A1,A4は、それぞれ項目Ay,Axに相当することになり、意味関係式として(A4&B1)→A1が導出される。また、項目B1を項目Byとした場合、意味パターンS3に基づいて、項目A1,A4は、それぞれ項目Ax,Ayに相当することになり、意味関係式としてA1→(A4&B1)が導出される。
次に、図11の4番目のA5&(B2 and B3)の項目対組合せについて考察する。
意味関係導出部15Cは、図3のステップ105で、前処理として、当該項目対組合せに含まれる3つの項目が属するカテゴリを調べる。この例では、項目A5が主項目で項目B2,B3が副項目となるため、意味パターンS3,S4を候補として選択する。この時点では、項目A5がAx,Ayのいずれと対応するのかわからず、項目B2,B3とBx,Byとの対応関係もわからない。
意味関係導出部15Cは、図3のステップ105で、前処理として、当該項目対組合せに含まれる3つの項目が属するカテゴリを調べる。この例では、項目A5が主項目で項目B2,B3が副項目となるため、意味パターンS3,S4を候補として選択する。この時点では、項目A5がAx,Ayのいずれと対応するのかわからず、項目B2,B3とBx,Byとの対応関係もわからない。
続いて、意味関係導出部15Cは、同じくステップ105で、項目A5,B2間の共起度P(A5,B2)と項目A5,B3間の共起度P(A5,B3)とを比較する。
ここで、P(A5,B2)がP(A5,B3)より大きい場合、図14に示すように、項目A5と項目B2との結びつきが強いことなる。この際、項目A5を項目Axとした場合、意味パターンS3に基づいて、項目B2,B3は、それぞれ項目Bx,Byに相当することになり、意味関係式として(A5&B2)→B3が導出される。また、項目A5を項目Ayとした場合、意味パターンS4に基づいて、項目B2,B3は、それぞれ項目By,Bxに相当することになり、意味関係式としてB3→(A5&B2)が導出される。
ここで、P(A5,B2)がP(A5,B3)より大きい場合、図14に示すように、項目A5と項目B2との結びつきが強いことなる。この際、項目A5を項目Axとした場合、意味パターンS3に基づいて、項目B2,B3は、それぞれ項目Bx,Byに相当することになり、意味関係式として(A5&B2)→B3が導出される。また、項目A5を項目Ayとした場合、意味パターンS4に基づいて、項目B2,B3は、それぞれ項目By,Bxに相当することになり、意味関係式としてB3→(A5&B2)が導出される。
一方、P(A5,B2)がP(A5,B3)より小さい場合、図15に示すように、項目A4と項目B1との結びつきが強いことなる。この際、項目B1を項目Bxとした場合、意味パターンS1に基づいて、項目A1,A4は、それぞれ項目Ay,Axに相当することになり、意味関係式として(A5&B3)→B2が導出される。また、項目B1を項目Byとした場合、意味パターンS3に基づいて、項目A1,A4は、それぞれ項目Ax,Ayに相当することになり、意味関係式としてB2→(A5&B3)が導出される。
この後、意味再構築部15Dは、図3のステップ107において、辞書DB14Aを参照して、意味関係導出部15Cで導出された意味関係情報(意味関係式)に基づき、テキストデータ20の意味解析結果を示す解析結果文を再構築する。
図16は、意味再構築例(A4&B1)−A1を示す説明図である。項目A1が「インターネット」、項目A4が「PC」、項目B1が「設定ミス」の場合であって、P(A1,B1)がP(A4,B1)より小さい場合、前述した図12のケースに相当し、例えば意味パターンS1に基づく意味関係式(A4&B1)→A1を適用した場合には、「PCの設定ミスのため、インターネットが接続できなくなった」という解析結果文が再構築される。
図16は、意味再構築例(A4&B1)−A1を示す説明図である。項目A1が「インターネット」、項目A4が「PC」、項目B1が「設定ミス」の場合であって、P(A1,B1)がP(A4,B1)より小さい場合、前述した図12のケースに相当し、例えば意味パターンS1に基づく意味関係式(A4&B1)→A1を適用した場合には、「PCの設定ミスのため、インターネットが接続できなくなった」という解析結果文が再構築される。
図17は、意味再構築例(A5&B3)→B2を示す説明図である。項目A5が「モデム」(ホームゲートウェイ)、項目B2が「ランプ点滅」、項目B3が「電源故障」の場合であって、P(A5,B2)がP(A5,B3)より大きい場合、前述した図14のケースに相当し、例えば意味パターンS3に基づく意味関係式(A5&B3)→B2を適用した場合には、「モデムの電源故障のため、ランプ点滅」という解析結果文が再構築される。
なお、意味関係導出部15Cにおける共起度の大小比較からは、導出した2つの意味関係式のいずれを用いれば最適な意味をなす解析結果文を再構築できるかを、特定できない。このため、意味再構築部15Dでは、これら2つの意味関係式の両方について解析結果文を再構築して、オペレータに提示してもよい。また、2つの意味関係式で特定された項目に対応するキーワードの並び順序から、適切な解析結果文を選択してもよい。例えば、キーワードの並び順序と解析結果文との対応関係を辞書DB14Aに予め保存しておき、意味関係導出部15Cで導出された意味関係式のキーワードの並び順序に応じた解析結果文を辞書DB14Aから検索すればよい。このような手法については、非特許文献2,3などの公知の技術を利用すればよい。
図18は、本実施の形態にかかる意味解析装置での試験結果を示す説明図である。図18に示す意味関係式と対応する単語を含むテキストデータ20を180000件用意し、本実施の形態にかかる意味解析方法を適用して、意味の再構築を実施した。この結果、いずれの意味関係式についても90%以上の合致率を得られることが確認された。
[本実施の形態の効果]
このように、本実施の形態は、出現頻度算出部15Aにより、テキストデータ20に含まれる各単語の出現頻度を各カテゴリの項目ごとに算出し、項目対組合せ抽出部15Bにより、これら項目のうちから当該出現頻度の大きい項目を抽出し、抽出したこれら項目からなるすべての項目対ごとに、当該項目対を構成する2つの項目に属する単語が同時に出現する頻度を示す共起度を算出して、これら項目対のうちから共起度の大きい項目対を抽出し、抽出したこれら項目対のすべての組合せごとに共起度を算出して、これら組合せのうちから当該共起度の大きい組合せを抽出し、意味関係導出部により、項目対組合せ抽出部で抽出された組合せのうち異なる3つの項目を含む組合せを選択し、当該組合せに含まれる項目間の共起度の大小関係に基づいて、これら項目間の意味的関係を示す意味関係情報を導出している。
このように、本実施の形態は、出現頻度算出部15Aにより、テキストデータ20に含まれる各単語の出現頻度を各カテゴリの項目ごとに算出し、項目対組合せ抽出部15Bにより、これら項目のうちから当該出現頻度の大きい項目を抽出し、抽出したこれら項目からなるすべての項目対ごとに、当該項目対を構成する2つの項目に属する単語が同時に出現する頻度を示す共起度を算出して、これら項目対のうちから共起度の大きい項目対を抽出し、抽出したこれら項目対のすべての組合せごとに共起度を算出して、これら組合せのうちから当該共起度の大きい組合せを抽出し、意味関係導出部により、項目対組合せ抽出部で抽出された組合せのうち異なる3つの項目を含む組合せを選択し、当該組合せに含まれる項目間の共起度の大小関係に基づいて、これら項目間の意味的関係を示す意味関係情報を導出している。
したがって、通信サービス提供時に得られる文集合からなるテキストデータから、共起性を持つ3つの項目を効率よく抽出できるとともに、これら項目間の意味的関係を的確に導出することが可能となる。
これにより、テキストデータに内在する、通信サービスでの発生事象に関する知識の内容を、詳細に抽出することができる。このため、通信サービスに関するサービス企画や障害対応などの業務内容を大幅に向上させることが可能となる。
これにより、テキストデータに内在する、通信サービスでの発生事象に関する知識の内容を、詳細に抽出することができる。このため、通信サービスに関するサービス企画や障害対応などの業務内容を大幅に向上させることが可能となる。
[実施の形態の拡張]
本実施の形態では、同一カテゴリの項目から生成した項目対組合せである同一カテゴリ組合せと、別カテゴリの項目から生成した項目対組合せである別カテゴリ組合せをそれぞれ抽出する場合について説明したが、これに限定されるものではなく、解析対象となる通信サービスやテキストデータの特徴に合わせて、同一カテゴリまたは別カテゴリのいずれか一方の組合せのみを抽出するようにしてもよい。これにより、意味解析に要する処理時間を削減することができる。
本実施の形態では、同一カテゴリの項目から生成した項目対組合せである同一カテゴリ組合せと、別カテゴリの項目から生成した項目対組合せである別カテゴリ組合せをそれぞれ抽出する場合について説明したが、これに限定されるものではなく、解析対象となる通信サービスやテキストデータの特徴に合わせて、同一カテゴリまたは別カテゴリのいずれか一方の組合せのみを抽出するようにしてもよい。これにより、意味解析に要する処理時間を削減することができる。
また、本実施の形態では、別カテゴリ組合せから意味関係式を導出する場合を例として説明したが、同一カテゴリ組合せについても、前述と同様にして意味関係式を導出することができる。この場合には、異なる3つの項目がすべてカテゴリAまたはカテゴリBに属することになるので、カテゴリに基づき主項目および副項目を特定できない。このため、例えばこれら項目のうち共起度が最も小さい項目対をなす2つの項目を副項目とし、残りの項目を主項目とするなどの方法を用いればよい。
また、本実施の形態では、テキストデータの意味解析を行う際、少なくとも異なる3つの項目を含む項目対組合せを対象として、意味関係を導出する場合を例として説明したが、これに限定されるものではなく、異なる2つの項目からなる項目対についても、前述した従来の手法を用いて意味解析を行うようにしてもよい。
また、異なる4つ以上の項目を含む項目対組合せについても、本実施の形態と同様に、いくつかの意味パターンを予め用意し、当該項目対組合せに含まれる項目相互間の共起度を比較することにより、これら項目と意味パターン内の項目との対応関係を特定すればよい。
また、異なる4つ以上の項目を含む項目対組合せについても、本実施の形態と同様に、いくつかの意味パターンを予め用意し、当該項目対組合せに含まれる項目相互間の共起度を比較することにより、これら項目と意味パターン内の項目との対応関係を特定すればよい。
10…意味解析装置、11…テキスト入力部、12…操作入力部、13…画面表示部、14…記憶部、14A…辞書DB、14B…抽出設定情報、14P…プログラム、15…演算処理部、15A…出現頻度算出部、15B…項目対組合せ抽出部、15C…意味関係導出部、15D…意味再構築部、20…テキストデータ。
Claims (9)
- 通信サービス提供時に得られる文集合からなるテキストデータを意味的に解析することにより当該テキストデータに内在する知識を抽出する意味解析装置であって、
解析対象となる前記テキストデータを入力するテキスト入力部と、
前記テキストデータに含まれる各単語を当該通信サービスの特徴に基づき分類する際に用いる複数のカテゴリと、これらカテゴリごとに設けられた、当該カテゴリに属する単語を当該通信サービスに関する構成およびサービスに基づき細分類する際に用いる複数の項目とを含む分類情報とを記憶する記憶部と、
前記テキストデータに含まれる各単語の出現頻度を前記各カテゴリの項目ごとに算出する出現頻度算出部と、
前記項目のうちから当該出現頻度の大きい項目を抽出し、抽出したこれら項目からなるすべての項目対ごとに、当該項目対を構成する2つの項目に属する単語が同時に出現する頻度を示す共起度を算出して、これら項目対のうちから共起度の大きい項目対を抽出し、抽出したこれら項目対のすべての組合せごとに前記共起度を算出して、これら組合せのうちから当該共起度の大きい組合せを抽出する項目対組合せ抽出部と、
前記項目対組合せ抽出部で抽出された前記組合せのうち異なる3つの項目を含む組合せを選択し、当該組合せに含まれる項目間の共起度の大小関係に基づいて、これら項目間の意味的関係を示す意味関係情報を導出する意味関係導出部と
を備えることを特徴とする意味解析装置。 - 請求項1に記載の意味解析装置において、
前記項目対組合せ抽出部は、前記項目を抽出する際は、当該項目のカテゴリに対して予め設定されている規定数としきい値とに基づき、出現頻度が当該しきい値以上の項目を出現頻度の大きい順に当該規定数だけ前記項目を抽出し、前記項目対を抽出する際は、当該項目対をなす各項目のカテゴリの組合せに対して予め設定されている規定数としきい値とに基づき、出現頻度が当該しきい値以上の項目対を出現頻度の大きい順に当該規定数だけ抽出することを特徴とする意味解析装置。 - 請求項1に記載の意味解析装置において、
前記カテゴリは、当該通信サービスに関する構成およびサービスを示すカテゴリと、これら構成およびサービスで発生する事象を示すカテゴリとを含むことを特徴とする意味解析装置。 - 請求項1に記載の意味解析装置において、
前記意味関係導出部で導出された前記意味関係情報と、当該意味関係情報に含まれる各項目に対応する単語とから、当該意味関係情報と対応する前記知識を示す解析結果文を再構築する意味再構築部をさらに備えることを特徴とする意味解析装置。 - 通信サービス提供時に得られる文集合からなるテキストデータを意味的に解析することにより当該テキストデータに内在する知識を抽出する意味解析装置で用いられる意味解析方法であって、
テキスト入力部が、解析対象となるテキストデータを入力する入力ステップと、
記憶部が、前記テキストデータに含まれる各単語を当該通信サービスの特徴に基づき分類する際に用いる複数のカテゴリと、これらカテゴリごとに設けられた、当該カテゴリに属する単語を当該通信サービスに関する構成およびサービスに基づき細分類する際に用いる複数の項目とを含む分類情報とを記憶する記憶ステップと、
出現頻度算出部が、前記テキストデータに含まれる各単語の出現頻度を前記各カテゴリの項目ごとに算出する出現頻度算出ステップと、
項目対組合せ抽出部が、前記項目のうちから当該出現頻度の大きい項目を抽出し、抽出したこれら項目からなるすべての項目対ごとに、当該項目対を構成する2つの項目に属する単語が同時に出現する頻度を示す共起度を算出して、これら項目対のうちから共起度の大きい項目対を抽出し、抽出したこれら項目対のすべての組合せごとに前記共起度を算出して、これら組合せのうちから当該共起度の大きい組合せを抽出する項目対組合せ抽出ステップと、
意味関係導出部が、前記項目対組合せ抽出部で抽出された前記組合せのうち異なる3つの項目を含む組合せを選択し、当該組合せに含まれる項目間の共起度の大小関係に基づいて、これら項目間の意味的関係を示す意味関係情報を導出する意味関係導出部ステップと
を備えることを特徴とする意味解析方法。 - 請求項5に記載の意味解析方法において、
前記項目対組合せ抽出ステップは、前記項目を抽出する際は、当該項目のカテゴリに対して予め設定されている規定数としきい値とに基づき、出現頻度が当該しきい値以上の項目を出現頻度の大きい順に当該規定数だけ前記項目を抽出し、前記項目対を抽出する際は、当該項目対をなす各項目のカテゴリの組合せに対して予め設定されている規定数としきい値とに基づき、出現頻度が当該しきい値以上の項目対を出現頻度の大きい順に当該規定数だけ抽出するステップを含むことを特徴とする意味解析方法。 - 請求項5に記載の意味解析方法において、
前記カテゴリは、当該通信サービスに関する構成およびサービスを示すカテゴリと、これら構成およびサービスで発生する事象を示すカテゴリとを含むことを特徴とする意味解析方法。 - 請求項5に記載の意味解析方法において、
意味再構築部が、前記意味関係導出部で導出された前記意味関係情報と、当該意味関係情報に含まれる各項目に対応する単語とから、当該意味関係情報と対応する前記知識を示す解析結果文を再構築する意味再構築ステップをさらに備えることを特徴とする意味解析方法。 - コンピュータを、請求項1〜請求項4に記載の意味解析装置の各部として動作させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009041456A JP2010198246A (ja) | 2009-02-24 | 2009-02-24 | 意味解析装置、方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009041456A JP2010198246A (ja) | 2009-02-24 | 2009-02-24 | 意味解析装置、方法、およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010198246A true JP2010198246A (ja) | 2010-09-09 |
Family
ID=42822920
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009041456A Pending JP2010198246A (ja) | 2009-02-24 | 2009-02-24 | 意味解析装置、方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010198246A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012096388A1 (ja) * | 2011-01-12 | 2012-07-19 | 日本電気株式会社 | 意外性判定システム、意外性判定方法およびプログラム |
US9792274B2 (en) | 2014-02-12 | 2017-10-17 | International Business Machines Corporation | Categorizing keywords |
-
2009
- 2009-02-24 JP JP2009041456A patent/JP2010198246A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012096388A1 (ja) * | 2011-01-12 | 2012-07-19 | 日本電気株式会社 | 意外性判定システム、意外性判定方法およびプログラム |
US9792274B2 (en) | 2014-02-12 | 2017-10-17 | International Business Machines Corporation | Categorizing keywords |
US10606944B2 (en) | 2014-02-12 | 2020-03-31 | International Business Machines Corporation | Categorizing keywords |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Talib et al. | Text mining: techniques, applications and issues | |
Zhou et al. | Where should the bugs be fixed? more accurate information retrieval-based bug localization based on bug reports | |
Bassett et al. | Structural information based term weighting in text retrieval for feature location | |
US9251248B2 (en) | Using context to extract entities from a document collection | |
TW201638803A (zh) | 文本挖掘系統和工具 | |
WO2019049483A1 (ja) | 同義語辞書作成装置、同義語辞書作成プログラム及び同義語辞書作成方法 | |
CN108304382B (zh) | 基于制造过程文本数据挖掘的质量分析方法与系统 | |
Kathuria et al. | A review of tools and techniques for preprocessing of textual data | |
Wagner et al. | Analyzing text in software projects | |
Tabak et al. | Comparison of emotion lexicons | |
KR102421904B1 (ko) | 재난사고 원인분석의 고도화 방법 | |
Rani et al. | Study and comparision of vectorization techniques used in text classification | |
Ara et al. | Understanding customer sentiment: Lexical analysis of restaurant reviews | |
Jaman et al. | Sentiment analysis of customers on utilizing online motorcycle taxi service at twitter with the support vector machine | |
Portugal et al. | Nfrfinder: a knowledge based strategy for mining non-functional requirements | |
JP2007011604A (ja) | 不具合診断システム及びプログラム | |
US9396177B1 (en) | Systems and methods for document tracking using elastic graph-based hierarchical analysis | |
US20130318104A1 (en) | Method and system for analyzing data in artifacts and creating a modifiable data network | |
JP2010198278A (ja) | 評判情報分類装置、評判情報分類方法及びプログラム | |
JP2010198246A (ja) | 意味解析装置、方法、およびプログラム | |
JP2014102625A (ja) | 情報検索システム、プログラム、および方法 | |
JP2016162357A (ja) | 商品に対するユーザの感情分析装置及びプログラム | |
JP2009289016A (ja) | 通信サービス運用におけるテキストデータ分析方法およびテキストデータ分析装置、ならびにそのためのプログラム | |
Poojitha et al. | Document representations to improve topic modelling | |
KR20220041336A (ko) | 중요 키워드 추천 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법 |