JP2010198246A

JP2010198246A - 意味解析装置、方法、およびプログラム

Info

Publication number: JP2010198246A
Application number: JP2009041456A
Authority: JP
Inventors: Motoi Iwashita; 基岩下; Shinsuke Shimokawa; 信祐下川
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2009-02-24
Filing date: 2009-02-24
Publication date: 2010-09-09

Abstract

【課題】通信サービス提供時に得られるテキストデータからその特徴として抽出した単語間の意味関係を的確に導出する。
【解決手段】項目対組合せ抽出部１５Ｂにより、これら項目のうちから当該出現頻度の大きい項目を抽出し、抽出したこれら項目からなるすべての項目対ごとに、当該項目対を構成する２つの項目に属する単語が同時に出現する頻度を示す共起度を算出して、これら項目対のうちから共起度の大きい項目対を抽出し、抽出したこれら項目対のすべての組合せごとに共起度を算出して、これら組合せのうちから当該共起度の大きい組合せを抽出し、意味関係導出部により、項目対組合せ抽出部で抽出された組合せのうち異なる３つの項目を含む組合せを選択し、当該組合せに含まれる項目間の共起度の大小関係に基づいて、これら項目間の意味的関係を示す意味関係情報を導出する。
【選択図】図１

Description

本発明は、自然言語処理技術に関し、特に故障対応やサービス企画などの業務で必要とされる情報を膨大なテキストデータから抽出するためのテキストマイニング技術に関する。

一般に、商品開発におけるユーザのアンケート分析、ＧｏｏｇｌｅやＹａｈｏｏ等のポータルにおける用語検索、ブログやＣＧＭ（Consumer Generated Media）における人気用語検索、ニュース記事のキーワードによる分類、企業評判のための評価指標など、各種の自然言語処理では、収集した文集合からなるテキストデータに出現する単語の出現頻度を把握することにより、形態素解析技術を利用して、トレンドなどの知識を抽出している。

また、同じ意味で表現の異なる同義語や似たような意味を有する類義語を分類・関連付ける手法として、クラスタリング手法や２語間の共起関係を基本とした手法が検討されている。このような手法の１つとして、故障データを分析する際、曖昧検索では精度の低い同義語の分類を向上する手法がある（例えば、特許文献１など参照）。これは、単語類似性に着目した分析手法である。

これに対して、従来、通信サービス提供時に蓄積される膨大な量のテキストデータを対象に、通信サービスの特徴を捉えたカテゴリおよびそのカテゴリを構成する項目（キーワード）に基づいて、テキストデータに内在する知識を抽出する手法が提案されている（例えば、非特許文献１など参照）。

特開２００６−１４６８０２号公報

M. Iwashita et al.:Using Co-Occurrence to classify unstructured data in telecommunication services, ICE-B 2008, pp.12-17 (2008) 川谷孝彦：「多文書間の共通性分析による文書クラスタリング」、情報処理学会、自然言語処理研究会、154-14（2003.3.7）、pp.93-100、2003 秋葉泰弘他：「意味的等価性検証に基づく記述式回答文の採点法」、情報処理学会、研究報告、2006-NL-174(6)（2006.7.27）、pp.31-35、2006

このような従来技術は、テキストデータがどのような知識を内在しているかを項目間の共起性に基づき判定し、故障個所と故障事象を分類するのに有効である。特に２項目間については、例えば「インターネット」と「接続」では「インターネットに接続できない」、「モデム」と「設定」では「モデムの設定ができない」、「モデムの設定がおかしく通信ができない」といったように、テキストデータ自身の意味を的確に表現可能であった。
しかしながら、３項目以上になると、対象となる項目が複雑に関係しているため、このような従来の手法では、テキストデータの持つ特徴を踏まえて、テキストデータ自身の意味を適切に表現できないことがある。

例えば、対象となるテキストデータについて、「ＰＣ」と「設定」、「モデム」と「設定」、「ＰＣ」と「モデム」という３つの項目対の共起度が大きい場合、このテキストデータの分析結果として、「ＰＣ」もしくは「モデム」の「設定」に問題があること、を意味していることがわかる。しかし、実際には、何らかの原因で「ＰＣ」にトラブルが発生し、「モデム」の「設定」を再度実施する必要があったり、「モデム」の「設定」は、通常「ＰＣ」から行うが、「ＰＣ」から入力する際の操作ミスなどにトラブルの原因があることも少なくない。従来の手法では、このような異なる３つ以上の単語間の意味関係を的確に導出することはできない。

本発明はこのような課題を解決するためのものであり、通信サービス提供時に得られるテキストデータからその特徴として抽出した単語間の意味関係を的確に導出できる技術を提供することを目的としている。

このような目的を達成するために、本発明にかかる意味解析装置は、通信サービス提供時に得られる文集合からなるテキストデータを意味的に解析することにより当該テキストデータに内在する知識を抽出する意味解析装置であって、解析対象となるテキストデータを入力するテキスト入力部と、テキストデータに含まれる各単語を当該通信サービスの特徴に基づき分類する際に用いる複数のカテゴリと、これらカテゴリごとに設けられた、当該カテゴリに属する単語を当該通信サービスに関する構成およびサービスに基づき細分類する際に用いる複数の項目とを含む分類情報とを記憶する記憶部と、テキストデータに含まれる各単語の出現頻度を各カテゴリの項目ごとに算出する出現頻度算出部と、項目のうちから当該出現頻度の大きい項目を抽出し、抽出したこれら項目からなるすべての項目対ごとに、当該項目対を構成する２つの項目に属する単語が同時に出現する頻度を示す共起度を算出して、これら項目対のうちから共起度の大きい項目対を抽出し、抽出したこれら項目対のすべての組合せごとに共起度を算出して、これら組合せのうちから当該共起度の大きい組合せを抽出する項目対組合せ抽出部と、項目対組合せ抽出部で抽出された組合せのうち異なる３つの項目を含む組合せを選択し、当該組合せに含まれる項目間の共起度の大小関係に基づいて、これら項目間の意味的関係を示す意味関係情報を導出する意味関係導出部とを備えている。

この際、項目対組合せ抽出部で、項目を抽出する際は、当該項目のカテゴリに対して予め設定されている規定数としきい値とに基づき、出現頻度が当該しきい値以上の項目を出現頻度の大きい順に当該規定数だけ項目を抽出し、項目対を抽出する際は、当該項目対をなす各項目のカテゴリの組合せに対して予め設定されている規定数としきい値とに基づき、出現頻度が当該しきい値以上の項目対を出現頻度の大きい順に当該規定数だけ抽出するようにしてもよい。

また、カテゴリに、当該通信サービスに関する構成およびサービスを示すカテゴリと、これら構成およびサービスで発生する事象を示すカテゴリとを含むようにしてもよい。
また、意味関係導出部で導出された意味関係情報と、当該意味関係情報に含まれる各項目に対応する単語とから、当該意味関係情報と対応する知識を示す解析結果文を再構築する意味再構築部をさらに備えてもよい。

また、本発明にかかる意味解析方法は、通信サービス提供時に得られる文集合からなるテキストデータを意味的に解析することにより当該テキストデータに内在する知識を抽出する意味解析装置で用いられる意味解析方法であって、テキスト入力部が、解析対象となるテキストデータを入力する入力ステップと、記憶部が、テキストデータに含まれる各単語を当該通信サービスの特徴に基づき分類する際に用いる複数のカテゴリと、これらカテゴリごとに設けられた、当該カテゴリに属する単語を当該通信サービスに関する構成およびサービスに基づき細分類する際に用いる複数の項目とを含む分類情報とを記憶する記憶ステップと、出現頻度算出部が、テキストデータに含まれる各単語の出現頻度を各カテゴリの項目ごとに算出する出現頻度算出ステップと、項目対組合せ抽出部が、項目のうちから当該出現頻度の大きい項目を抽出し、抽出したこれら項目からなるすべての項目対ごとに、当該項目対を構成する２つの項目に属する単語が同時に出現する頻度を示す共起度を算出して、これら項目対のうちから共起度の大きい項目対を抽出し、抽出したこれら項目対のすべての組合せごとに共起度を算出して、これら組合せのうちから当該共起度の大きい組合せを抽出する項目対組合せ抽出ステップと、意味関係導出部が、項目対組合せ抽出部で抽出された組合せのうち異なる３つの項目を含む組合せを選択し、当該組合せに含まれる項目間の共起度の大小関係に基づいて、これら項目間の意味的関係を示す意味関係情報を導出する意味関係導出部ステップとを備えている。

この際、項目対組合せ抽出ステップとして、項目を抽出する際は、当該項目のカテゴリに対して予め設定されている規定数としきい値とに基づき、出現頻度が当該しきい値以上の項目を出現頻度の大きい順に当該規定数だけ項目を抽出し、項目対を抽出する際は、当該項目対をなす各項目のカテゴリの組合せに対して予め設定されている規定数としきい値とに基づき、出現頻度が当該しきい値以上の項目対を出現頻度の大きい順に当該規定数だけ抽出するステップを含むようにしてもよい。

また、カテゴリに、当該通信サービスに関する構成およびサービスを示すカテゴリと、これら構成およびサービスで発生する事象を示すカテゴリとを含むようにしてもよい。
また、意味再構築部が、意味関係導出部で導出された意味関係情報と、当該意味関係情報に含まれる各項目に対応する単語とから、当該意味関係情報と対応する知識を示す解析結果文を再構築する意味再構築ステップをさらに備えてもよい。

また、本発明にかかるプログラムは、コンピュータを、前述した意味解析装置の各部として動作させるためのプログラムである。

本発明によれば、通信サービス提供時に得られる文集合からなるテキストデータから、共起性を持つ異なる３つの項目対組合せを効率よく抽出できるとともに、これら項目間の意味的関係を的確に導出することが可能となる。
これにより、テキストデータに内在する、通信サービスでの発生事象に関する知識の内容を、詳細に抽出することができる。このため、通信サービスに関するサービス企画や障害対応などの業務内容を大幅に向上させることが可能となる。

本実施の形態にかかる意味解析装置の構成を示すブロック図であるカテゴリおよび項目の設定例を示す説明図である。本実施の形態にかかる意味解析装置の意味解析処理を示すフローチャートである。同一カテゴリ組合せ抽出処理を示すフローチャートである。同一カテゴリ項目間の共起関係を示す説明図である。同一カテゴリ項目対間の共起関係を示す説明図である。別カテゴリ項目対組合せ抽出処理を示すフローチャートである。別カテゴリ項目間の共起関係を示す説明図である。別カテゴリ項目対間の共起関係を示す説明図である。意味パターンを示す説明図である。項目対組合せ抽出結果を示す説明図である。意味関係抽出例（Ａ１＆Ｂ１）−Ａ４を示す説明図である。意味関係抽出例（Ａ４＆Ｂ１）−Ａ１を示す説明図である。意味関係抽出例（Ａ５＆Ｂ２）−Ｂ３を示す説明図である。意味関係抽出例（Ａ５＆Ｂ３）−Ｂ２を示す説明図である。意味再構築例（Ａ４＆Ｂ１）−Ａ１を示す説明図である。意味再構築例（Ａ５＆Ｂ３）−Ｂ２を示す説明図である。本実施の形態にかかる意味解析装置での試験結果を示す説明図である。

次に、本発明の一実施の形態について図面を参照して説明する。
［本実施の形態の構成］
まず、図１を参照して、本実施の形態にかかる意味解析装置について説明する。図１は、本実施の形態にかかる意味解析装置の構成を示すブロック図である。

この意味解析装置１０は、全体としてサーバやパーソナルコンピュータなどの情報処理装置からなり、通信サービス提供時に得られた分析対象となる文集合からなるテキストデータ２０を入力し、これら各文に含まれる各単語の共起度に基づき、通信サービスで発生する各種事象に関する知識として、これら文集合に含まれているいくつかの意味を解析する機能を有している。
意味解析装置１０には、主な機能部として、テキスト入力部１１、操作入力部１２、画面表示部１３、記憶部１４、および演算処理部１５が設けられている。

テキスト入力部１１は、専用のデータ入力回路などからなり、外部装置（図示せず）や記録媒体から各種データを取得することによりテキストデータ２０を入力する機能を有している。テキストデータ２０の具体例としては、通信サービスの利用者からサービス提供者に対して寄せられた電話、メール、Ｗｅｂ書き込み、アンケート結果などのテキスト文の集まりである。

操作入力部１２は、キーボードやマウスなどの操作入力装置からなり、オペレータ操作を検出して演算処理部１５へ出力する機能を有している。この操作入力部１２をテキスト入力部１１として利用し、オペレータ操作によりテキストデータ２０を入力してもよい。
画面表示部１３は、ＬＣＤやＰＤＰなどの画面表示装置からなり、演算処理部１５からの指示に応じて、操作メニューや解析結果などの各種情報を画面表示する機能を有している。

記憶部１４は、ハードディスクや半導体メモリなどの記憶装置からなり、演算処理部１５での処理動作に必要な処理情報やプログラム１４Ｐを記憶する機能を有している。
プログラム１４Ｐは、予め外部装置や記録媒体から読み込まれて記憶部１４に保存され、演算処理部１５により読み出されて実行されていることにより、意味解析処理などに用いられる各種処理部を実現するためのプログラムである。
記憶部１４で記憶する主な処理情報として、辞書データベース（以下、辞書ＤＢという）１４Ａと、抽出設定情報１４Ｂがある。

辞書ＤＢ１４Ａは、テキストデータ２０に含まれる各単語を当該通信サービスの特徴に基づき分類する際に用いる複数のカテゴリと、これらカテゴリごとに設けられた、当該カテゴリに属する単語を当該通信サービスに関する構成およびサービスに基づき細分類する際に用いる複数の項目（キーワード）と、これら項目と等しい意味で使用される単語群とを記憶する機能を有している。

図２は、カテゴリおよび項目の設定例を示す説明図である。ここでは、通信サービスの特徴に基づき、単語を大分類する際に用いるカテゴリとして、Ａ，Ｂという２つのカテゴリが予め設定されている。カテゴリＡは、通信サービスの提供に用いる装置やサービスなどの構成要素に関する単語を包含する大分類であり、カテゴリＢは、通信サービスの各構成要素で発生する事象や当該事象に対する対処の内容に関する単語を包含する大分類である。

また、カテゴリＡ，Ｂは、プロバイダ、通信事業ネットワーク、ホームゲートウェイ、端末装置、および提供サービスの５つに中分類されており、これら中分類に含まれる各構成要素を再分類するために個別の項目が設定されている。
図２の例では、カテゴリＡの構成要素のうち「インターネットサービス」、「電話機」、「ＶｏＩＰ」、「ＰＣ」、「ホームゲートウェイ」のそれぞれに、Ａ１，Ａ２，Ａ３，Ａ４，Ａ５という項目が設定されている。また、カテゴリＢの発生事象・対処内容のうち「設定ミス」、「ランプ点滅」、「電源不良」、「セキュリティ対策」、「電源ＯＮ／ＯＦＦ」のそれぞれに、Ｂ１，Ｂ２，Ｂ３，Ｂ４，Ｂ５という項目が設定されている。

抽出設定情報１４Ｂは、テキストデータ２０から算出した各カテゴリの項目ごとの出現頻度に基づき、同一カテゴリおよび別カテゴリの項目対の組合せを抽出際に用いる各種設定情報からなり、主な設定情報としては、カテゴリＣｘごとの規定値Ｎｘ、カテゴリ対Ｃｘ，Ｃｙごと規定値Ｎｘｙ、およびカテゴリ共通のしきい値α１としきい値α２がある。

規定値Ｎｘは、カテゴリＣｘごとに同一カテゴリ項目対Ｔｘｉｊを生成するための項目Ｔｘｉ，Ｔｘｊを抽出する際の上限規定数である。
規定値Ｎｘｙは、カテゴリ対Ｃｘ，Ｃｙごとに別カテゴリ項目対Ｔｘｉｙｊを生成するための項目Ｔｘｉ，Ｔｙｊを抽出する際の上限規定数である。

しきい値α１は、複数の項目対のうちから、項目対組合せを生成するための項目対を、これら項目対の共起度に基づき抽出するための共起度しきい値である。このしきい値α１は、同一カテゴリ項目対および別カテゴリ項目対のいずれの共起度に対しても共通して適用される。
しきい値α２は、複数の項目対組合せのうちから、意味関係導出の候補となる項目対組合せを、これら項目対組合せの共起度に基づき抽出するための共起度しきい値である。このしきい値α２は、同一カテゴリ組合せおよび別カテゴリ組合せのいずれの共起度に対しても共通して適用される。

演算処理部１５は、ＣＰＵなどのマイクロプロセッサとその周辺回路を有し、記憶部１４のプログラム１４Ｐを読み込んで実行することより、意味解析処理を行うための各種処理部を実現する機能を有している。
演算処理部１５で実現される主な処理部として、出現頻度算出部１５Ａ、項目対組合せ抽出部１５Ｂ、意味関係導出部１５Ｃ、および意味再構築部１５Ｄがある。

出現頻度算出部１５Ａは、辞書ＤＢ１４Ａを参照して、テキスト入力部１１で入力されたテキストデータ２０に含まれる単語を、予め設定されているカテゴリおよび項目で分類し、各カテゴリの項目ごとにこれら単語の出現頻度を算出する機能を有している。

項目対組合せ抽出部１５Ｂは、抽出設定情報１４Ｂを参照して、同一カテゴリの項目対からなる同一カテゴリ組合せのうち共起度が大きい同一カテゴリ組合せを抽出する機能と、抽出設定情報１４Ｂを参照して、別カテゴリの項目対からなる別カテゴリ組合せのうち共起度が大きい別カテゴリ組合せを抽出する機能とを有している。

このうち、同一カテゴリ組合せを抽出する機能は、カテゴリごとに当該カテゴリの規定数だけ出現頻度の大きい項目をそれぞれ抽出する機能と、抽出した項目のうち同一カテゴリに含まれる２つの項目からなる同一カテゴリ項目対ごとに共起度を算出する機能と、これら同一カテゴリ項目対のうちから当該共起度がしきい値以上の同一カテゴリ項目対を抽出する機能と、抽出した同一カテゴリ項目対からなる同一カテゴリ組合せごとに共起度を算出する機能と、これら同一カテゴリ組合せのうちから当該共起度がしきい値以上の同一カテゴリ組合せを抽出する機能とから構成される。

また、別カテゴリ組合せを抽出する機能は、異なるカテゴリからなるカテゴリ対ごとに当該カテゴリ別の規定数だけ出現頻度の大きい項目をそれぞれ選択する機能と、抽出した項目のうち別カテゴリに含まれる２つの項目からなる別カテゴリ項目対ごとに共起度を算出する機能と、これら別カテゴリ項目対のうちから当該共起度がしきい値以上の別カテゴリ項目対を抽出する機能と、抽出した別カテゴリ項目対からなる別カテゴリ組合せごとに共起度を算出する機能と、これら別カテゴリ組合せのうちから当該共起度がしきい値以上の別カテゴリ組合せを抽出する機能とから構成される。

意味関係導出部１５Ｃは、項目対組合せ抽出部１５Ｂで抽出された同一カテゴリ組合せおよび別カテゴリ組合せのうち、少なくとも互いに異なる３つの項目を含む組合せを選択する機能と、選択された組合せごとに、当該組合せを構成する項目間の共起度の大小関係に基づいて、これら項目間の意味的関係を示す意味関係情報（意味関係式）を導出する機能とを有している。この意味関係情報の表現方法については、項目間の関係を示す意味関係式であってもよく、単なる項目や当該項目を示す記号や番号の並びからなる意味関係データであってもよい。

意味再構築部１５Ｄは、辞書ＤＢ１４Ａを参照して、意味関係導出部１５Ｃで導出された意味関係情報に基づき、テキストデータ２０の意味解析結果として、テキストデータ２０に含まれる知識を示す解析結果文を再構築する機能を有している。

［本実施の形態の動作］
次に、図３を参照して、本実施の形態にかかる意味解析装置の動作について説明する。図３は、本実施の形態にかかる意味解析装置の意味解析処理を示すフローチャートである。
意味解析装置１０の演算処理部１５は、操作入力部１２で検出されたオペレータの処理開始操作に応じて、図３の意味解析処理の実行を開始する。

まず、演算処理部１５は、テキスト入力部１１により解析対象となるテキストデータ１０を取得し（ステップ１００）、出現頻度算出部１５Ａにより、記憶部１４の辞書ＤＢ１４Ａを参照して、テキストデータ２０に含まれる単語を、予め設定されているカテゴリおよび項目で分類し、各カテゴリの項目ごとにこれら単語の出現頻度を算出する（ステップ１０１）。

次に、演算処理部１５は、項目対組合せ抽出部１５Ｂにより、抽出設定情報１４Ｂを参照して、後述の図４に示す同一カテゴリ組合せ抽出処理を実行することにより、同一カテゴリの項目対からなる同一カテゴリ組合せのうち共起度が大きい同一カテゴリ組合せを抽出する（ステップ１０２）。
続いて、演算処理部１５は、項目対組合せ抽出部１５Ｂにより、抽出設定情報１４Ｂを参照して、後述の図５に示す別カテゴリ項目対組合せ抽出処理を実行することにより、別カテゴリの項目対からなる別カテゴリ組合せのうち共起度が大きい別カテゴリ組合せを抽出する（ステップ１０３）。

その後、演算処理部１５は、意味関係導出部１５Ｃにより、項目対組合せ抽出部１５Ｂで抽出された同一カテゴリ組合せおよび別カテゴリ組合せのうち、異なる３つの項目を含む組合せを処理対象として選択する（ステップ１０４）。
次に、意味関係導出部１５Ｃは、これら選択された組合せごとに、当該組合せを構成する項目間の共起度を比較し（ステップ１０５）、これら共起度の大小関係に基づいて、これら項目間の意味的関係を示す意味関係情報（意味関係式）を導出する（ステップ１０６）。

続いて、演算処理部１５は、意味再構築部１５Ｄにより、辞書ＤＢ１４Ａを参照して、意味関係導出部１５Ｃで導出された意味関係情報に基づき、テキストデータ２０の意味解析結果を示す解析結果文を再構築して、画面表示部１３で画面表示し、あるいは記憶部１４へ意味解析結果情報として保存し（ステップ１０７）、一連の意味解析処理を終了する。

［同一カテゴリ組合せ抽出処理］
次に、図４〜図６を参照して、同一カテゴリ組合せ抽出処理について詳細に説明する。図４は、同一カテゴリ組合せ抽出処理を示すフローチャートである。図５は、同一カテゴリ項目間の共起関係を示す説明図である。図６は、同一カテゴリ項目対間の共起関係を示す説明図である。

演算処理部１５の項目対組合せ抽出部１５Ｂは、図３のステップ１０３において、図４の同一カテゴリ組合せ抽出処理を実行する。
まず、項目対組合せ抽出部１５Ｂは、カテゴリＣｘごとに、当該カテゴリの規定数Ｋｘだけ、出現頻度Ｐｘｉの大きい項目Ｔｘｉをそれぞれ抽出し（ステップ１１０）、抽出した項目のうち同一カテゴリＣｘに含まれる２つの項目Ｔｘｉ，Ｔｘｊからなる同一カテゴリ項目対Ｔｘｉｊごとに共起度Ｐｘｉｊを算出する（ステップ１１１）。

共起度Ｐｘｉｊは、項目Ｔｘｉ，Ｔｘｊのいずれかが含まれる文のうち、項目Ｔｘｉ，Ｔｘｊの両方が同一文に含まれる割合を示している。
具体的には、テキストデータ２０内の各文においてカテゴリＣｘの項目Ｔｘｉ，Ｔｘｊが単独で出現する回数（出現頻度）をＮｘｉ，Ｎｘｊとし、これら項目Ｔｘｊ，Ｔｘｊが同一文内で出現する回数（出現頻度）をＮｘｉｊとした場合、項目Ｔｘｉ，Ｔｘｊすなわち同一カテゴリ項目対Ｔｘｉｊの共起度Ｐｘｉｊは、次の式（１）により算出される。
Ｐｘｉｊ＝Ｎｘｉｊ／（Ｎｘｉ＋Ｎｘｊ−Ｎｘｉｊ） …（１）

図５では、図２で述べたカテゴリＡに関する同一カテゴリ項目対の共起度算出例が示されている。ここでは、カテゴリＡの規定値Ｎｘが「５」の場合を前提として、項目Ｔｘｉとして項目Ａ１，Ａ２，Ａ３，Ａ４，Ａ５が抽出されている。そしてこれら項目が行方向および列方向に配置され、２つの項目Ｔｘｉ，Ｔｘｊからなる同一カテゴリ項目対Ｔｘｉｊごとに共起度Ｐｘｉｊが示されている。例えば、項目Ａ１と項目Ａ２の項目が交差する欄には、項目Ａ１，Ａ２の同一カテゴリ項目対Ａ１＆Ａ２に関する共起度「０．２２」が記載されている。なお、本発明では、演算子＆はその前後に記載された２つの項目からなる項目対を示すものとする。

この後、項目対組合せ抽出部１５Ｂは、これら同一カテゴリ項目対Ｔｘｉｊのうちから当該共起度Ｐｘｉｊがしきい値α１以上の同一カテゴリ項目対Ｔｘｉｊを抽出する（ステップ１１２）。
図５の例では、項目対Ａ４＆Ａ５，Ａ１＆Ａ５，Ａ１＆Ａ２，Ａ１＆Ａ４に関する共起度がそれぞれ「０．２８」，「０．２７」，「０．２２」，「０．２２」となっており、しきい値α１が「０．２」の場合には、カテゴリＡに関する同一カテゴリ組合せを生成するための項目対として、これら４つの項目対が抽出される。

続いて、項目対組合せ抽出部１５Ｂは、ステップ１１２で抽出した同一カテゴリ項目対のうち２つの同一カテゴリ項目対Ｔｘｉｊ，Ｔｘｍｎからなる同一カテゴリ組合せＴｘｉｊｍｎごとに、共起度Ｐｘｉｊｍｎを算出する（ステップ１１３）。
図６の例では、図５で抽出した項目対Ａ４＆Ａ５，Ａ１＆Ａ５，Ａ１＆Ａ２，Ａ１＆Ａ４が行方向および列方向に配置され、２つの項目対Ｔｘｉｊ，Ｔｘｍｎからなる同一カテゴリ組合せＴｘｉｊｍｎごとに共起度Ｐｘｉｊｍｎが示されている。例えば、項目対Ａ１＆Ａ２と項目Ａ１＆Ａ４の項目が交差する欄には、項目対Ａ１＆Ａ２，Ａ１＆Ａ４の同一カテゴリ組合せＡ１＆Ａ２，Ａ１＆Ａ４＝Ａ１＆（Ａ２ and Ａ４）に関する共起度「０．２２」が記載されている。なお、本発明では、演算子andは、その前後に記載された２つの項目を展開する意味を示す。

共起度Ｐｘｉｊｍｎは、項目Ｔｘｉ，Ｔｘｊ，Ｔｘｍ，Ｔｘｎのいずれかが含まれる文のうち、項目Ｔｘｉ，Ｔｘｊ，Ｔｘｍ，Ｔｘｎのすべてが同一文に含まれる割合を示している。
具体的には、テキストデータ２０内の各文においてカテゴリＣｘの項目Ｔｘｉ，Ｔｘｊ，Ｔｘｍ，Ｔｘｎが単独で出現する回数（出現頻度）をＮｘｉ，Ｎｘｊ，Ｎｘｍ，Ｎｘｎとし、これら項目Ｔｘｊ，Ｔｘｊ，Ｔｘｍ，Ｔｘｎが同一文内で出現する回数（出現頻度）をＮｘｉｊｍｎとした場合、項目Ｔｘｉ，Ｔｘｊ，Ｔｘｍ，Ｔｘｎすなわち同一カテゴリ組合せＴｘｉｊｍｎの共起度Ｐｘｉｊｍｎは、次の式（２）により算出される。
Ｐｘｉｊｍｎ＝Ｎｘｉｊｍｎ／（Ｎｘｉ＋Ｎｘｊ＋Ｎｘｍ＋Ｎｘｎ−Ｎｘｉｊｍｎ） …（２）

この後、項目対組合せ抽出部１５Ｂは、これら同一カテゴリ組合せＴｘｉｊｍｎのうちから当該共起度Ｐｘｉｊｍｎがしきい値α２以上の同一カテゴリ組合せＴｘｉｊｍｎを抽出し（ステップ１１４）、一連の同一カテゴリ組合せ抽出処理を終了する。
図６の例では、項目対組合せＡ１＆Ａ５とＡ４＆Ａ５，Ａ１＆Ａ２とＡ１＆Ａ４，Ａ１＆Ａ４とＡ１＆Ａ５，Ａ１＆Ａ４とＡ４＆Ａ５に関する共起度がそれぞれ「０．２２」，「０．２１」，「０．２１」，「０．２０」となっており、しきい値α２が「０．２」の場合には、カテゴリＡに関する同一カテゴリ組合せとして、これら４つの項目対組合せが抽出される。

［別カテゴリ組合せ抽出処理］
次に、図７〜図９を参照して、別カテゴリ組合せ抽出処理について詳細に説明する。図７は、別カテゴリ組合せ抽出処理を示すフローチャートである。図８は、別カテゴリ項目間の共起関係を示す説明図である。図９は、別カテゴリ項目対間の共起関係を示す説明図である。

演算処理部１５の項目対組合せ抽出部１５Ｂは、図３のステップ１０４において、図７の別カテゴリ組合せ抽出処理を実行する。
まず、項目対組合せ抽出部１５Ｂは、カテゴリＣｘとカテゴリＣｙのカテゴリ対ごとに、当該カテゴリ対の規定数Ｋｘｙずつ、出現頻度Ｐｘｉ，Ｐｙｊの大きい項目Ｔｘｉ，Ｔｙｊをそれぞれ抽出し（ステップ１２０）、抽出した別カテゴリＣｘ，Ｃｙ含まれる２つの項目Ｔｘｉ，Ｔｘｊからなる別カテゴリ項目対Ｔｘｉｙｊごとに共起度Ｐｘｉｙｊを算出する（ステップ１２１）。

共起度Ｐｘｉｊは、項目Ｔｘｉ，Ｔｘｊのいずれかが含まれる文のうち、項目Ｔｘｉ，Ｔｘｊの両方が同一文に含まれる割合を示している。
具体的には、テキストデータ２０内の各文において、カテゴリＣｘの項目Ｔｘｉが単独で出現する回数（出現頻度）をＮｘｉとし、カテゴリＣｙの項目Ｔｙｊが単独で出現する回数（出現頻度）をＮｙｊとし、これら項目Ｔｘｉ，Ｔｙｊが同一文内で出現する回数（出現頻度）をＮｘｉｙｊとした場合、項目Ｔｘｉ，Ｔｙｊすなわち別カテゴリ項目対Ｔｘｉｙｊの共起度Ｐｘｉｙｊは、次の式（３）により算出される。
Ｐｘｉｙｊ＝Ｎｘｉｙｊ／（Ｎｘｉ＋Ｎｙｊ−Ｎｘｉｙｊ） …（３）

図８では、図２で述べたカテゴリＡに関する別カテゴリ項目対の共起度算出例が示されている。ここでは、カテゴリＡ，Ｂの組合せに対する規定値Ｎｘｙが「５」の場合を前提として、項目Ｔｘｉとして項目Ａ１，Ａ２，Ａ３，Ａ４，Ａ５が抽出され、項目Ｔｙｊとして項目Ｂ１，Ｂ２，Ｂ３，Ｂ４，Ｂ５が抽出されている。そしてこれら項目が行方向および列方向に配置され、２つの項目Ｔｘｉ，Ｔｙｊからなる別カテゴリ項目対Ｔｘｉｙｊごとに共起度Ｐｘｉｙｊが示されている。例えば、項目Ａ１と項目Ｂ１の項目が交差する欄には、項目Ａ１，Ｂ２の別カテゴリ項目対Ａ１＆Ｂ２に関する共起度「０．５５」が記載されている。

この後、項目対組合せ抽出部１５Ｂは、これら別カテゴリ項目対Ｔｘｉｙｊのうちから当該共起度Ｐｘｉｙｊがしきい値α１以上の別カテゴリ項目対Ｔｘｉｙｊを抽出する（ステップ１２２）。
図５の例では、項目対Ａ５＆Ｂ１，Ａ１＆Ｂ２，Ａ１＆Ｂ１，Ａ４＆Ｂ１，Ａ５＆Ｂ３，Ａ３＆Ｂ２，Ａ５＆Ｂ２，Ａ４＆Ｂ４に関する共起度がそれぞれ「０．５９」，「０．５８」，「０．５５」，「０．４７」，「０．４３」，「０．４１」，「０．４１」，「０．３８」となっており、しきい値α１が「０．２」の場合には、カテゴリＡに関する同一カテゴリ組合せを生成するための項目対として、これら８つの項目対が抽出される。

続いて、項目対組合せ抽出部１５Ｂは、ステップ１２２で抽出した別カテゴリ項目対のうち２つの別カテゴリ項目対Ｔｘｉｊ，Ｔｙｍｎからなる別カテゴリ組合せＴｘｉｊｙｍｎごとに、共起度Ｐｘｉｊｙｍｎを算出する（ステップ１２３）。
図９の例では、図５で抽出した項目対Ａ５＆Ｂ１，Ａ１＆Ｂ２，Ａ１＆Ｂ１，Ａ４＆Ｂ１，Ａ５＆Ｂ３，Ａ３＆Ｂ２，Ａ５＆Ｂ２，Ａ４＆Ｂ４が行方向および列方向に配置され、２つの項目対Ｔｘｉｊ，Ｔｘｍｎからなる別カテゴリ組合せＴｘｉｊｙｍｎごとに共起度Ｐｘｉｊｍｎが示されている。例えば、項目対Ａ４＆Ｂ１と項目Ａ５＆Ｂ１の項目が交差する欄には、項目対Ａ４＆Ｂ１，Ａ５＆Ｂ１の別カテゴリ組合せＡ４＆Ｂ１，Ａ５＆Ｂ１＝（Ａ４ and Ａ５）＆Ｂ１に関する共起度「０．３６」が記載されている。

共起度Ｐｘｉｊｙｍｎは、項目Ｔｘｉ，Ｔｘｊ，Ｔｙｍ，Ｔｙｎのいずれかが含まれる文のうち、項目Ｔｘｉ，Ｔｘｊ，Ｔｙｍ，Ｔｙｎのすべてが同一文に含まれる割合を示している。
具体的には、テキストデータ２０内の各文においてカテゴリＣｘの項目Ｔｘｉ，Ｔｘｊ，カテゴリＣｙのＴｘｍ，Ｔｘｎが単独で出現する回数（出現頻度）をＮｘｉ，Ｎｘｊ，Ｎｙｍ，Ｎｙｎとし、項目Ｔｘｊ，Ｔｘｊ，Ｔｙｍ，Ｔｙｎが同一文内で出現する回数（出現頻度）をＮｘｉｊｙｍｎとした場合、項目Ｔｘｉ，Ｔｘｊ，Ｔｙｍ，Ｔｙｎすなわち別カテゴリ組合せＴｘｉｊｙｍｎの共起度Ｐｘｉｊｙｍｎは、次の式（４）により算出される。
Ｐｘｉｊｙｍｎ＝Ｎｘｉｊｙｍｎ／（Ｎｘｉ＋Ｎｘｊ＋Ｎｙｍ＋Ｎｙｎ−Ｎｘｉｊｙｍｎ） …（４）

この後、項目対組合せ抽出部１５Ｂは、これら別カテゴリ組合せＴｘｉｊｙｍｎのうちから当該共起度Ｐｘｉｊｙｍｎがしきい値α２以上の別カテゴリ組合せＴｘｉｊｙｍｎを抽出し（ステップ１２４）、一連の別カテゴリ組合せ抽出処理を終了する。
図９の例では、項目対組合せＡ４＆Ｂ１とＡ５＆Ｂ１，Ａ１＆Ｂ１とＡ４＆Ｂ１，Ａ１＆Ｂ１とＡ５＆Ｂ１，Ａ５＆Ｂ２とＡ５＆Ｂ３，Ａ１＆Ｂ２とＡ５＆Ｂ２に関する共起度がそれぞれ「０．３６」，「０．３４」，「０．３３」，「０．３１」，「０．２９」となっており、しきい値α２が「０．２」の場合には、カテゴリＡに関する別カテゴリ組合せとして、これら５つの項目対組合せが抽出される。

［意味関係導出処理］
次に、図１０および図１１を参照して、意味関係導出処理について詳細に説明する。図１０は、意味パターンを示す説明図である。図１１は、項目対組合せ抽出結果を示す説明図である。

通信サービス提供時に発生した事象の内容を正確に表現する場合、図１０の意味パターンＳ０に示すように、「Ａｘ−Ｂｘ−Ａｙ−Ｂｙ」の順に意味関係を持つ、異なる４つの項目Ａｘ，Ａｙ，Ｂｘ，Ｂｙに相当する単語で表現するのが望ましい。このうち、項目Ａｘ，Ａｙは図２で述べたカテゴリＡに属する項目であり、項目Ａｘは事象が発生した構成要素を示し、項目Ａｙは発生事象の影響を受けた構成要素を示している。また、項目Ｂｘ，Ｂｙは、同じくカテゴリＢに属する項目であり、項目Ｂｘは発生事象の内容を示し、項目Ｂｙは発生事象に関連して発生した関連発生事象や発生事象に対する対応内容を示している。

これに対して、実際に収集したテキストデータ２０の各文から抽出した項目組合せには、異なる４つの項目Ａｘ，Ａｙ，Ｂｘ，Ｂｙに相当する単語が１つの文にすべて含まれていることは少なく、これら４つの項目のうちのいずれかが欠けている場合が多い。この際、２つの項目だけを含むテキストデータについては、前述した従来の手法で意味を解析することが可能である。本発明は、従来の手法では難しかった異なる３つの項目を含むテキストデータの意味解析を実現する。

上記４つの項目から１つの項目が欠落して異なる３つの項目からなる意味パターンは、図１０に示すように、Ｓ１，Ｓ２，Ｓ３，Ｓ４の４つのパターンとなる。ここでは、意味パターンＳ１，Ｓ２，Ｓ３，Ｓ４がそれぞれ「Ａｘ−Ｂｘ−Ａｙ」、「Ａｘ−Ａｙ−Ｂｙ」、「Ａｘ−Ｂｘ−Ｂｙ」、「Ｂｘ−Ａｙ−Ｂｙ」であるものとする。
これら意味パターンでは、前述した各項目が示す意味内容から考慮して、項目Ａｘ，Ｂｘ間、および項目Ａｙ，Ｂｙ間の意味関係は、項目Ｂｘ，Ａｙ間の意味関係より強い意味関係すなわち共起度を持つことになる。

本実施の形態では、抽出した項目対組合せに含まれる項目が属するカテゴリに基づき、当該項目対組合せと対応する意味パターンを選択するとともに、これら項目間の共起度を互いに比較することにより、当該項目対組合せに含まれる項目と意味パターン内の項目との対応関係を特定することにより、当該項目対組合せに含まれる意味内容を示す意味関係式を導出している。

具体的には、まず、項目組合せに含まれる異なる３つの項目のうち、他の２つの項目と比べてカテゴリが異なる１つの項目を主項目とし、この主項目がカテゴリＢに属する場合には、意味パターンとしてＳ１，Ｓ２を選択し、主項目がカテゴリＡに属する場合には、意味パターンとしてＳ３，Ｓ４を選択する。
続いて、主項目と他の２つの副項目との共起度を比較して、これら副項目のうちのいずれが主項目と意味的結びつきが強いか判定することにより、これら主項目および副項目が、意味パターン内のいずれの項目に相当するか特定する。

以下、実例に基づき、これら意味パターンの導出処理について説明する。
演算処理部１５の意味関係導出部１５Ｃは、図３のステップ１０４において、項目対組合せ抽出部１５Ｂで抽出された同一カテゴリ組合せおよび別カテゴリ組合せのうち、異なる３つの項目を含む組合せを選択する。ここでは、図１１に示すように、５つの項目対組合せが選択されており、すべて別カテゴリ組合せから構成されている。

これら項目対組合せのうち、まず、２番目の（Ａ１ and Ａ４）＆Ｂ１の項目対組合せについて考察する。
意味関係導出部１５Ｃは、図３のステップ１０５で、前処理として、当該項目対組合せに含まれる３つの項目が属するカテゴリを調べる。この例では、項目Ｂ１が主項目で項目Ａ１，Ａ４が副項目となるため、意味パターンＳ１，Ｓ２を候補として選択する。この時点では、項目Ｂ１がＢｘ，Ｂｙのいずれと対応するのかわからず、項目Ａ１，Ａ４とＡｘ，Ａｙとの対応関係もわからない。

続いて、意味関係導出部１５Ｃは、同じくステップ１０５で、項目Ａ１，Ｂ１間の共起度Ｐ（Ａ１，Ｂ１）と項目Ａ４，Ｂ１間の共起度Ｐ（Ａ４，Ｂ１）とを比較し、続くステップ１０６において、この比較結果に応じて意味関係式を導出する。
Ｐ（Ａ１，Ｂ１）がＰ（Ａ４，Ｂ１）より大きい場合、図１２に示すように、項目Ａ１と項目Ｂ１との結びつきが強いことなる。この際、項目Ｂ１を項目Ｂｘとした場合、意味パターンＳ１に基づいて、項目Ａ１，Ａ４は、それぞれ項目Ａｘ，Ａｙに相当することになり、意味関係式として（Ａ１＆Ｂ１）→Ａ４が導出される。また、項目Ｂ１を項目Ｂｙとした場合、意味パターンＳ３に基づいて、項目Ａ１，Ａ４は、それぞれ項目Ａｙ，Ａｘに相当することになり、意味関係式としてＡ４→（Ａ１＆Ｂ１）が導出される。

一方、Ｐ（Ａ１，Ｂ１）がＰ（Ａ４，Ｂ１）より小さい場合、図１３に示すように、項目Ａ４と項目Ｂ１との結びつきが強いことなる。この際、項目Ｂ１を項目Ｂｘとした場合、意味パターンＳ１に基づいて、項目Ａ１，Ａ４は、それぞれ項目Ａｙ，Ａｘに相当することになり、意味関係式として（Ａ４＆Ｂ１）→Ａ１が導出される。また、項目Ｂ１を項目Ｂｙとした場合、意味パターンＳ３に基づいて、項目Ａ１，Ａ４は、それぞれ項目Ａｘ，Ａｙに相当することになり、意味関係式としてＡ１→（Ａ４＆Ｂ１）が導出される。

次に、図１１の４番目のＡ５＆（Ｂ２ and Ｂ３）の項目対組合せについて考察する。
意味関係導出部１５Ｃは、図３のステップ１０５で、前処理として、当該項目対組合せに含まれる３つの項目が属するカテゴリを調べる。この例では、項目Ａ５が主項目で項目Ｂ２，Ｂ３が副項目となるため、意味パターンＳ３，Ｓ４を候補として選択する。この時点では、項目Ａ５がＡｘ，Ａｙのいずれと対応するのかわからず、項目Ｂ２，Ｂ３とＢｘ，Ｂｙとの対応関係もわからない。

続いて、意味関係導出部１５Ｃは、同じくステップ１０５で、項目Ａ５，Ｂ２間の共起度Ｐ（Ａ５，Ｂ２）と項目Ａ５，Ｂ３間の共起度Ｐ（Ａ５，Ｂ３）とを比較する。
ここで、Ｐ（Ａ５，Ｂ２）がＰ（Ａ５，Ｂ３）より大きい場合、図１４に示すように、項目Ａ５と項目Ｂ２との結びつきが強いことなる。この際、項目Ａ５を項目Ａｘとした場合、意味パターンＳ３に基づいて、項目Ｂ２，Ｂ３は、それぞれ項目Ｂｘ，Ｂｙに相当することになり、意味関係式として（Ａ５＆Ｂ２）→Ｂ３が導出される。また、項目Ａ５を項目Ａｙとした場合、意味パターンＳ４に基づいて、項目Ｂ２，Ｂ３は、それぞれ項目Ｂｙ，Ｂｘに相当することになり、意味関係式としてＢ３→（Ａ５＆Ｂ２）が導出される。

一方、Ｐ（Ａ５，Ｂ２）がＰ（Ａ５，Ｂ３）より小さい場合、図１５に示すように、項目Ａ４と項目Ｂ１との結びつきが強いことなる。この際、項目Ｂ１を項目Ｂｘとした場合、意味パターンＳ１に基づいて、項目Ａ１，Ａ４は、それぞれ項目Ａｙ，Ａｘに相当することになり、意味関係式として（Ａ５＆Ｂ３）→Ｂ２が導出される。また、項目Ｂ１を項目Ｂｙとした場合、意味パターンＳ３に基づいて、項目Ａ１，Ａ４は、それぞれ項目Ａｘ，Ａｙに相当することになり、意味関係式としてＢ２→（Ａ５＆Ｂ３）が導出される。

この後、意味再構築部１５Ｄは、図３のステップ１０７において、辞書ＤＢ１４Ａを参照して、意味関係導出部１５Ｃで導出された意味関係情報（意味関係式）に基づき、テキストデータ２０の意味解析結果を示す解析結果文を再構築する。
図１６は、意味再構築例（Ａ４＆Ｂ１）−Ａ１を示す説明図である。項目Ａ１が「インターネット」、項目Ａ４が「ＰＣ」、項目Ｂ１が「設定ミス」の場合であって、Ｐ（Ａ１，Ｂ１）がＰ（Ａ４，Ｂ１）より小さい場合、前述した図１２のケースに相当し、例えば意味パターンＳ１に基づく意味関係式（Ａ４＆Ｂ１）→Ａ１を適用した場合には、「ＰＣの設定ミスのため、インターネットが接続できなくなった」という解析結果文が再構築される。

図１７は、意味再構築例（Ａ５＆Ｂ３）→Ｂ２を示す説明図である。項目Ａ５が「モデム」（ホームゲートウェイ）、項目Ｂ２が「ランプ点滅」、項目Ｂ３が「電源故障」の場合であって、Ｐ（Ａ５，Ｂ２）がＰ（Ａ５，Ｂ３）より大きい場合、前述した図１４のケースに相当し、例えば意味パターンＳ３に基づく意味関係式（Ａ５＆Ｂ３）→Ｂ２を適用した場合には、「モデムの電源故障のため、ランプ点滅」という解析結果文が再構築される。

なお、意味関係導出部１５Ｃにおける共起度の大小比較からは、導出した２つの意味関係式のいずれを用いれば最適な意味をなす解析結果文を再構築できるかを、特定できない。このため、意味再構築部１５Ｄでは、これら２つの意味関係式の両方について解析結果文を再構築して、オペレータに提示してもよい。また、２つの意味関係式で特定された項目に対応するキーワードの並び順序から、適切な解析結果文を選択してもよい。例えば、キーワードの並び順序と解析結果文との対応関係を辞書ＤＢ１４Ａに予め保存しておき、意味関係導出部１５Ｃで導出された意味関係式のキーワードの並び順序に応じた解析結果文を辞書ＤＢ１４Ａから検索すればよい。このような手法については、非特許文献２，３などの公知の技術を利用すればよい。

図１８は、本実施の形態にかかる意味解析装置での試験結果を示す説明図である。図１８に示す意味関係式と対応する単語を含むテキストデータ２０を１８００００件用意し、本実施の形態にかかる意味解析方法を適用して、意味の再構築を実施した。この結果、いずれの意味関係式についても９０％以上の合致率を得られることが確認された。

［本実施の形態の効果］
このように、本実施の形態は、出現頻度算出部１５Ａにより、テキストデータ２０に含まれる各単語の出現頻度を各カテゴリの項目ごとに算出し、項目対組合せ抽出部１５Ｂにより、これら項目のうちから当該出現頻度の大きい項目を抽出し、抽出したこれら項目からなるすべての項目対ごとに、当該項目対を構成する２つの項目に属する単語が同時に出現する頻度を示す共起度を算出して、これら項目対のうちから共起度の大きい項目対を抽出し、抽出したこれら項目対のすべての組合せごとに共起度を算出して、これら組合せのうちから当該共起度の大きい組合せを抽出し、意味関係導出部により、項目対組合せ抽出部で抽出された組合せのうち異なる３つの項目を含む組合せを選択し、当該組合せに含まれる項目間の共起度の大小関係に基づいて、これら項目間の意味的関係を示す意味関係情報を導出している。

したがって、通信サービス提供時に得られる文集合からなるテキストデータから、共起性を持つ３つの項目を効率よく抽出できるとともに、これら項目間の意味的関係を的確に導出することが可能となる。
これにより、テキストデータに内在する、通信サービスでの発生事象に関する知識の内容を、詳細に抽出することができる。このため、通信サービスに関するサービス企画や障害対応などの業務内容を大幅に向上させることが可能となる。

［実施の形態の拡張］
本実施の形態では、同一カテゴリの項目から生成した項目対組合せである同一カテゴリ組合せと、別カテゴリの項目から生成した項目対組合せである別カテゴリ組合せをそれぞれ抽出する場合について説明したが、これに限定されるものではなく、解析対象となる通信サービスやテキストデータの特徴に合わせて、同一カテゴリまたは別カテゴリのいずれか一方の組合せのみを抽出するようにしてもよい。これにより、意味解析に要する処理時間を削減することができる。

また、本実施の形態では、別カテゴリ組合せから意味関係式を導出する場合を例として説明したが、同一カテゴリ組合せについても、前述と同様にして意味関係式を導出することができる。この場合には、異なる３つの項目がすべてカテゴリＡまたはカテゴリＢに属することになるので、カテゴリに基づき主項目および副項目を特定できない。このため、例えばこれら項目のうち共起度が最も小さい項目対をなす２つの項目を副項目とし、残りの項目を主項目とするなどの方法を用いればよい。

また、本実施の形態では、テキストデータの意味解析を行う際、少なくとも異なる３つの項目を含む項目対組合せを対象として、意味関係を導出する場合を例として説明したが、これに限定されるものではなく、異なる２つの項目からなる項目対についても、前述した従来の手法を用いて意味解析を行うようにしてもよい。
また、異なる４つ以上の項目を含む項目対組合せについても、本実施の形態と同様に、いくつかの意味パターンを予め用意し、当該項目対組合せに含まれる項目相互間の共起度を比較することにより、これら項目と意味パターン内の項目との対応関係を特定すればよい。

１０…意味解析装置、１１…テキスト入力部、１２…操作入力部、１３…画面表示部、１４…記憶部、１４Ａ…辞書ＤＢ、１４Ｂ…抽出設定情報、１４Ｐ…プログラム、１５…演算処理部、１５Ａ…出現頻度算出部、１５Ｂ…項目対組合せ抽出部、１５Ｃ…意味関係導出部、１５Ｄ…意味再構築部、２０…テキストデータ。

Claims

通信サービス提供時に得られる文集合からなるテキストデータを意味的に解析することにより当該テキストデータに内在する知識を抽出する意味解析装置であって、
解析対象となる前記テキストデータを入力するテキスト入力部と、
前記テキストデータに含まれる各単語を当該通信サービスの特徴に基づき分類する際に用いる複数のカテゴリと、これらカテゴリごとに設けられた、当該カテゴリに属する単語を当該通信サービスに関する構成およびサービスに基づき細分類する際に用いる複数の項目とを含む分類情報とを記憶する記憶部と、
前記テキストデータに含まれる各単語の出現頻度を前記各カテゴリの項目ごとに算出する出現頻度算出部と、
前記項目のうちから当該出現頻度の大きい項目を抽出し、抽出したこれら項目からなるすべての項目対ごとに、当該項目対を構成する２つの項目に属する単語が同時に出現する頻度を示す共起度を算出して、これら項目対のうちから共起度の大きい項目対を抽出し、抽出したこれら項目対のすべての組合せごとに前記共起度を算出して、これら組合せのうちから当該共起度の大きい組合せを抽出する項目対組合せ抽出部と、
前記項目対組合せ抽出部で抽出された前記組合せのうち異なる３つの項目を含む組合せを選択し、当該組合せに含まれる項目間の共起度の大小関係に基づいて、これら項目間の意味的関係を示す意味関係情報を導出する意味関係導出部と
を備えることを特徴とする意味解析装置。
請求項１に記載の意味解析装置において、
前記項目対組合せ抽出部は、前記項目を抽出する際は、当該項目のカテゴリに対して予め設定されている規定数としきい値とに基づき、出現頻度が当該しきい値以上の項目を出現頻度の大きい順に当該規定数だけ前記項目を抽出し、前記項目対を抽出する際は、当該項目対をなす各項目のカテゴリの組合せに対して予め設定されている規定数としきい値とに基づき、出現頻度が当該しきい値以上の項目対を出現頻度の大きい順に当該規定数だけ抽出することを特徴とする意味解析装置。
請求項１に記載の意味解析装置において、
前記カテゴリは、当該通信サービスに関する構成およびサービスを示すカテゴリと、これら構成およびサービスで発生する事象を示すカテゴリとを含むことを特徴とする意味解析装置。
請求項１に記載の意味解析装置において、
前記意味関係導出部で導出された前記意味関係情報と、当該意味関係情報に含まれる各項目に対応する単語とから、当該意味関係情報と対応する前記知識を示す解析結果文を再構築する意味再構築部をさらに備えることを特徴とする意味解析装置。
通信サービス提供時に得られる文集合からなるテキストデータを意味的に解析することにより当該テキストデータに内在する知識を抽出する意味解析装置で用いられる意味解析方法であって、
テキスト入力部が、解析対象となるテキストデータを入力する入力ステップと、
記憶部が、前記テキストデータに含まれる各単語を当該通信サービスの特徴に基づき分類する際に用いる複数のカテゴリと、これらカテゴリごとに設けられた、当該カテゴリに属する単語を当該通信サービスに関する構成およびサービスに基づき細分類する際に用いる複数の項目とを含む分類情報とを記憶する記憶ステップと、
出現頻度算出部が、前記テキストデータに含まれる各単語の出現頻度を前記各カテゴリの項目ごとに算出する出現頻度算出ステップと、
項目対組合せ抽出部が、前記項目のうちから当該出現頻度の大きい項目を抽出し、抽出したこれら項目からなるすべての項目対ごとに、当該項目対を構成する２つの項目に属する単語が同時に出現する頻度を示す共起度を算出して、これら項目対のうちから共起度の大きい項目対を抽出し、抽出したこれら項目対のすべての組合せごとに前記共起度を算出して、これら組合せのうちから当該共起度の大きい組合せを抽出する項目対組合せ抽出ステップと、
意味関係導出部が、前記項目対組合せ抽出部で抽出された前記組合せのうち異なる３つの項目を含む組合せを選択し、当該組合せに含まれる項目間の共起度の大小関係に基づいて、これら項目間の意味的関係を示す意味関係情報を導出する意味関係導出部ステップと
を備えることを特徴とする意味解析方法。
請求項５に記載の意味解析方法において、
前記項目対組合せ抽出ステップは、前記項目を抽出する際は、当該項目のカテゴリに対して予め設定されている規定数としきい値とに基づき、出現頻度が当該しきい値以上の項目を出現頻度の大きい順に当該規定数だけ前記項目を抽出し、前記項目対を抽出する際は、当該項目対をなす各項目のカテゴリの組合せに対して予め設定されている規定数としきい値とに基づき、出現頻度が当該しきい値以上の項目対を出現頻度の大きい順に当該規定数だけ抽出するステップを含むことを特徴とする意味解析方法。
請求項５に記載の意味解析方法において、
前記カテゴリは、当該通信サービスに関する構成およびサービスを示すカテゴリと、これら構成およびサービスで発生する事象を示すカテゴリとを含むことを特徴とする意味解析方法。
請求項５に記載の意味解析方法において、
意味再構築部が、前記意味関係導出部で導出された前記意味関係情報と、当該意味関係情報に含まれる各項目に対応する単語とから、当該意味関係情報と対応する前記知識を示す解析結果文を再構築する意味再構築ステップをさらに備えることを特徴とする意味解析方法。
コンピュータを、請求項１〜請求項４に記載の意味解析装置の各部として動作させるためのプログラム。