JP2004326596A - 概念表現生成システム、概念表現生成方法、プログラム及び記憶媒体 - Google Patents
概念表現生成システム、概念表現生成方法、プログラム及び記憶媒体 Download PDFInfo
- Publication number
- JP2004326596A JP2004326596A JP2003122554A JP2003122554A JP2004326596A JP 2004326596 A JP2004326596 A JP 2004326596A JP 2003122554 A JP2003122554 A JP 2003122554A JP 2003122554 A JP2003122554 A JP 2003122554A JP 2004326596 A JP2004326596 A JP 2004326596A
- Authority
- JP
- Japan
- Prior art keywords
- expression
- phrase
- concept
- intention
- dependency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
【解決手段】対象とするテキストの概念表現を生成する概念表現生成システムにおいて、テキストに対して形態素解析および文節係り受け解析を含む言語解析をおこなう言語解析部2、その言語解析部2による言語解析結果に基づいてテキストを、構成単語の表記、品詞、および係り受け情報を含む文節情報を有するテキストデータ構造に変換するテキストデータ構造生成部4、前記テキストデータ構造の文節情報を構成する単語の表記および品詞の並びが特定の表現パターンと一致した場合、その表現パターンに対応づけて記憶されている意図表現を前記テキストデータ構造の当該文節情報に対応づけて付加する意図表現設定部6、付加された意図表現を用いて概念表現を生成する概念表現生成部8を備えた。
【選択図】 図1
Description
【発明の属する技術分野】
本発明は、例えばパーソナルコンピュータなど情報処理装置上で実現される、文書検索システム、文書分類システム、文書分析システムといった文書処理システムなどに用いることができる概念表現生成技術に関する。
【0002】
【従来の技術】
近年、アンケートデータやコールセンターデータなど大量のテキストデータを分析することを目的としたテキストマイニング技術が注目されてきている。こうした分析をおこなう際には、文書集合内に含まれる特徴的な概念情報を抽出することが大きな課題の一つとなる。
概念情報抽出を含む情報抽出技術は、大量の文書データから何らかの知見を見出す方法として研究が進んでいる。文書から、その文書の主題やトピック、書き手の意図などを表現する有益な情報を抽出することができれば、それらに基づいた文書検索、文書分類、文書分析などの応用が実現可能となる。利用者にとって有益な抽出情報とは、利用者の任意の尺度をもって文書から抽出される概念であるが、これらを精度良く利用者の意図どおりに抽出し、表現する技術が求められているのである。
従来、文書の特徴的な概念は、所定値以上の出現頻度をもつ語句、語句群などの表層表現、いわゆるキーワードまたは共起する複数のキーワード群、キーワードを用いたアンドやオアの論理式などによって表現されることが多かった。例えば特開平8−30627号公報記載の従来技術では、文書の特徴的な概念表現に際してのキーワード抽出のためのキーワード抽出技法を提示しており、特開2000−067054公報に示された従来技術では、文書の特徴概念表現のために出現頻度が所定値以上の単語を抽出する。また、特開平2001−290826公報に示された従来技術では、特定の単語の論理演算式で表現する。
しかしながら、一つまたは複数のキーワードの共起情報、複数のキーワードの論理式などで表現する方法では、例えば、「OSのインストール」という概念を含む文書群を検索しようとした場合、「OS」&「インストール」というキーワードの論理式を概念表現とすることになるが、この場合、「OSのインストールができない」(概念に合致)という文書も、「OSはWin95だが、ドライバーがインストールできない」という文書も該当してしまい、検索精度に悪影響を及ぼすという問題があり、概念記述に限界があることが明らかになってきている。
さらに、利用者の所望する概念は、必ずしも高頻度に出現する単語とは限らない。例えば「インストールできる」という文を含む文書と、「インストールできない」という文を含む文書を、可能、不可能という観点で概念を表現したい場合、全く逆の概念を有するにもかかわらず、従来のキーワードによる概念生成においては、同じ概念として処理されてしまう。このように頻度に基づくキーワード抽出でカバーできない事例も明らかになっていている。
【0003】
そこで、対象文書の構文情報を利用して語と語の関係を抽出したり、文書の書き手の意図を抽出し、それを概念表現生成に利用する方法も提案されている。例えば特開平5−265760号公報に示された従来技術では、構文解析の結果得られる因果関係など、特定の命題間関係を、構造タグの付いた文節の構造知識という形式の知識表現へ変換し、概念表現としている。この表現方法は、命題間関係が明らかになり、利用者の観点が一致した場合、強力な表現方法である。しかし、この知識表現は、複数行にわたる文節の構造知識という形式であるので、利用者に言語知識がなければこれらの概念群を概観しにくいという問題点がある。
さらに、構造上、概念の組み合わせを記述しにくいという問題点もある。
また、特開2000−172691公報に示された従来技術では、係り受け解析の結果得られる特定の自立語と、テンス・アスペクト・モダリティ情報付きの文構造を処理単位としている。しかし、この従来技術では、テンス、アスペクト、モダリティ情報の取得に関する具体的な方法の記載がなく、再現性に問題がある。また、特開2001−075966公報に示された従来技術では、キーワードを概念表現に置き換え、さらに構文解析の結果、係り受け関係にある概念の組み合わせや、概念+評価ラベルという形式で概念表現をおこなう。この評価ラベルには、打消の意図なども含まれ、先の例のような可能、不可能の概念を区別することが可能である。このように概念表現方法が豊富な手法であるが、しかし、概念変換のための辞書が必要であり、この辞書の構築は、前記のとおり、コストが高いという問題がある。
また、特開2001−84250公報に示された従来技術では、対象文書を構文解析して、その結果得られる語と語の関係構文木や線形リストが概念表現の役割を果たしている。語と語の関係構文木の形式で概念を表現するので、単語による表現に比べて情報が豊富で、ごみの少ない概念が生成できる。しかし、表記を統一するための変換辞書が必要な上、表現方法が知識パターンとしての構文木や線形リストであるので、そういった表現になじみの少ない利用者には難解であり、データの概観も難しく、抽出した概念の組み合わせなどの操作がしにくいという問題点がある。
【特許文献1】特開平8−30627号公報
【特許文献2】特開2000−067054公報
【特許文献3】特開2001−290826公報
【特許文献4】特開平5−265760号公報
【特許文献5】特開2000−172691公報
【特許文献6】特開2001−075966公報
【特許文献7】特開2001−84250公報
【0004】
【発明が解決しようとする課題】
前記したように、従来技術には、テキスト文書からそのテキスト文書の内容を表現する有益な概念情報を抽出するのに高いコストを要するとか、概念表現が利用者にわかりにくいとか、概念表現を操作しにくいとかいった問題があった。
本発明の目的は、このような従来技術の問題を解決することにあり、具体的には、テキスト文書からそのテキスト文書の内容を表現する有益な概念情報を低コストで抽出し、利用者にわかりやすく、操作しやすい概念表現を実現することができる概念表現生成技術を提供することにある。特に本発明では、テキストに対しておこなう言語解析結果から得られる文節情報と文節間関係情報から書き手の様々な意図表現を抽出し、それを用いて概念を表現することができる概念表現生成方法を提供する。これにより、利用者は、特別な文法知識がなくても、テキストに含まれる概念を容易に概観できるし、概念の検索、概念の拡張や絞込みなどの操作を容易におこなうことができる。
【0005】
【課題を解決するための手段】
前記の課題を解決するために、請求項1記載の発明では、対象とするテキストの概念表現を生成する概念表現生成システムにおいて、テキストに対して少なくとも形態素解析および文節係り受け解析を含む言語解析をおこなう言語解析手段と、その言語解析手段による言語解析結果に基づいてテキストを、少なくとも構成単語の表記、品詞、および係り受け情報を含む文節情報を有するテキストデータ構造に変換するテキストデータ構造生成手段と、前記テキストデータ構造の文節情報を構成する単語の表記および品詞の並びが特定の表現パターンと一致した場合、その表現パターンに対応づけて記憶されている意図表現を前記テキストデータ構造の当該文節情報に対応づけて付加する意図表現設定手段と、付加された意図表現を用いて概念表現を生成する概念表現生成手段とを備えた。
また、請求項2記載の発明では、対象とするテキストの概念表現を生成する概念表現生成方法において、テキストに対して少なくとも形態素解析および文節係り受け解析を含む言語解析をおこない、その言語解析結果に基づいてテキストを、少なくとも構成単語の表記、品詞、および係り受け情報を含む文節情報を有するテキストデータ構造に変換し、そのテキストデータ構造の文節情報を構成する単語の表記および品詞の並びが特定の表現パターンと一致した場合、その表現パターンに対応づけて記憶されている意図表現を前記テキストデータ構造の当該文節情報に対応づけて付加し、付加した意図表現を用いて概念表現を生成する構成にした。
また、請求項3記載の発明では、請求項2記載の発明において、前記意図表現に少なくとも打消表現を含む構成にした。
また、請求項4記載の発明では、請求項3記載の発明において、当該文節の文節情報に打消の意の意図表現が偶数個付加された場合、その打消の意の意図表現を肯定の意の意図表現に変換する構成にした。
また、請求項5記載の発明では、請求項2記載の発明において、前記意図表現に少なくとも可能表現を含む構成にした。
また、請求項6記載の発明では、請求項2記載の発明において、前記意図表現に少なくとも要望表現を含む構成にした。
また、請求項7記載の発明では、請求項2記載の発明において、前記意図表現に少なくとも疑問表現を含む構成にした。
また、請求項8記載の発明では、請求項2記載の発明において、前記意図表現に少なくとも理由表現を含む構成にした。
【0006】
また、請求項9記載の発明では、請求項2記載の発明において、表記および品詞の並びで構成される前記特定の表現パターン、および対応する意図表現を、ユーザインタフェースを介して参照、追加、修正、または削除が可能なテーブル形式で記憶する意図表現パターン辞書を用いる構成にした。
また、請求項10記載の発明では、請求項2記載の発明において、意図表現を付加する際、当該文節が、自立語そのものであり、特定の表現パターンと一致し、さらに、当該文節が受け文節になっている係り受け文節対が存在する場合、その係り受け文節対の係り文節の文節情報にも対応する意図表現を付加する構成にした。
また、請求項11記載の発明では、請求項10記載の発明において、前記係り受け文節対の係り文節を構成する自立語が形式名詞であった場合、当該係り文節が連体修飾関係で受け文節になっている係り受け文節対が存在したならば、前記形式名詞を含む文節の代わりにその係り受け文節対の係り文節の文節情報に対応する意図表現を付加する構成にした。
また、請求項12記載の発明では、請求項2記載の発明において、概念表現を生成する際、所定の意図表現が付加されなかった文節を検出し、その文節に所定の意図表現がつかなかったことを明示する構成にした。
また、請求項13記載の発明では、情報処理装置上で実行されるプログラムにおいて、請求項2乃至請求項12のいずれか1項に記載の概念表現生成方法によった概念表現生成が実行されるようにプログラミングされている構成にした。
また、請求項14記載の発明では、プログラムを記憶した記憶媒体において、請求項13記載のプログラムを記憶した。
【0007】
【発明の実施の形態】
以下、図面により本発明の実施の形態を詳細に説明する。
図1は本発明の実施の形態を示す概念表現生成システムの構成ブロック図である。図示したように、この概念表現生成システムは、入力部1、言語解析部2、言語解析用辞書3、テキストデータ構造生成部4、テキストデータ構造記憶部5、意図表現設定部6、意図表現パターン辞書7、概念表現生成部8、概念表現記憶部9、および出力部10などを備えている。なお、ここでは、請求項1記載の言語解析手段、テキストデータ構造生成手段、意図表現設定手段、および概念表現生成手段がそれぞれ、言語解析部2、テキストデータ構造生成部4、意図表現設定部6、および概念表現生成部8により実現される。
また、入力部1、言語解析部2、テキストデータ構造生成部4、意図表現設定部6、概念表現生成部8、および出力部10は、プログラムを記憶したメモリ、およびそのプログラムに従って動作するCPUなどにより実現され、言語解析用辞書3、テキストデータ構造記憶部5、および意図表現パターン辞書7は、例えばハードディスク記憶装置の一部を記憶領域として用いて実現される。また、入力部1が入力処理をおこなうための入力手段は例えばキーボードや音声入力装置であり、出力部10が出力処理をおこなう相手の出力手段は例えば表示装置や音声出力装置である。
また、言語解析部2は少なくとも形態素解析と係り受け解析をおこなう。形態素解析処理は、テキストを単語毎に区切り、品詞など各単語の属性を付加する処理で、原理は「日本語情報処理・第4章 形態素解析」に詳しいが、その処理方法としては、最長一致法、コスト最小法、用例検索法など、既存の手法を用いる。係り受け解析は、係り受け処理の1単位である文節を生成し、文節と文節がどのような関係にあるかを同定する処理で、原理は「日本語情報処理・第5章 構文解析」や、「二文節間の係り受けを基礎とした日本語の構文分析」(吉田)にあるような既存の手法を用いる。
一般に文節は1つの自立語と0個以上の付属語で構成され、解析方法によっては、1文節に複数個の自立語が含まれるような結果を出す定義の仕方もあるが、この実施例では、文節にはかならず1つだけしか自立語を含まないように文節を生成する解析方法を用いる。
【0008】
図2はテキストデータ構造の構造例、図3はテキストデータ構造の各構成要素が管理する情報例である。言語解析によって得られた情報を、テキストデータ構造生成部4において図2に示したようなテキストデータ構造に変換し、記憶する。前記したテキストデータ構造の各構成要素とは、上位から順に、テキスト、文、文節、単語である(図2参照)。図3に示したように、例えば文節情報には、文節を構成する単語情報の他、当該文節へ係る係り文節情報、当該文節が係る先の受け文節情報、意図表現などがある。
意図表現とは、文節内の意図を示す表現であり、主に助動詞など文節構成単語の表現パターンで判断することができる。例えば、「〜ない(助動詞)」「〜ず(助動詞)」という表現パターンは「打消」の意図を、「〜できる(補助動詞)」という表現パターンは「可能」の意図を、「〜たい(助動詞)」という表現パターンは「要望」の意図を、「〜ので(接続助詞)」という表現パターンは「理由」の意図を、当該文節に対して付加していると判断できる。なお、言語解析終了時には、意図表現はまだ設定されない。この後、意図表現設定部6により文節中から意図表現の表現パターンにマッチする文節が抽出され、テキストデータ構造記憶部5に、当該文節に対応づけて予め登録しておいた所定の意図表現が付加されるのである。
図4は意図表現パターン辞書の記載例である。図示したように表現パターンおよび対応する意図表現を含む意図表現パターン辞書を、ユーザインタフェースを介して参照、追加、修正、または削除が可能なテーブル形式で予め記憶しておく。そして、意図表現抽出では、文節を順に読み込み、図4に例示されているような意図表現パターン辞書とのマッチング処理をおこなう。マッチングキーは少なくとも1単語あたり表記と品詞を用いる。そして、マッチした場合の表現パターンによって、意図表現(図4参照)を、当該対象文節と、場合によっては係り受け関係にある係り文節、さらにその文節への係り文節へ付加し、テキストデータ構造記憶部5に記憶されている内容を更新する。
【0009】
次に、本発明の一実施例を説明する。例えばアンケートなどで以下のA〜Eの回答文書を得て、概念表現生成によって分析する場合を想定する。以下、この実施例の概念表現生成過程について説明する。
A:ドライバをインストールできない。
B:ドライバのインストールができない。
C:ドライバをインストールすることができない。
D:ドライバはインストールできた。
E:ドライバをインストールできなくもない。
まず、このようなそれぞれのテキスト文書を言語解析し、図5に示したようなテキストデータ構造へ変換する。なお、図5の文節構造リスト例において、bの後続数字は文節番号、「・」は単語や品詞の切れ目を表わす(図6以下、同様)。単語列および品詞列は、処理上は、単語ID(識別符号)、品詞番号列などで処理可能である。
次に、文書ID毎に、文節の先頭から順に図4に示した辞書を参照・比較し、表現パターンが一致した文節に対して、対応する意図表現をテキストデータ構造中の当該文節情報に付加する。なお、表現パターンが特定パターンだった場合(図4参照)、当該対象文節へ意図表現を付与すると同時に、その対象文節への係り文節を参照し、その文節構成要素に形式名詞が含まれていなかった場合、その係り文節へも意図表現を付与する。もし、形式名詞が含まれていた場合は、その係り文節の、そのまた係り文節へ意図表現を付与する。これにより、前記文書A〜Eには、図6〜図7に示したように意図表現が付与される。なお、図6(a)の意図表現については、「でき」が補助動詞「できる」可能にマッチし、「ない」が助動詞「ない」打消にマッチする。
また、図6(b)では、「でき」が動詞「できる」可能にマッチし、「ない」が助動詞「ない」打消にマッチし、動詞「できる」が特定パターンであるので、係り文節b2を参照し、b2に形式名詞が含まれないので係り文節b2にも同様の意図表現を付加する。また、図6(c)では、「でき」が動詞「できる」可能にマッチし、「ない」が助動詞「ない」打消にマッチし、動詞「できる」が特定パターンであるので、係り文節b3を参照し、b3に形式名詞が含まれるので、b3の係り文節b2にも同様の意図表現を付加する。また、図7(d)では、「でき」が補助動詞「できる」可能にマッチする。また、図7(e)では、「でき」が補助動詞「できる」可能にマッチし、「なく」が助動詞「ない」打消にマッチし、形容詞「ない」打消にマッチし、形容詞「ない」が特定パターンであるので、係り文節b2にも同様の意図表現を付加する。
【0010】
意図表現設定の動作フローを図8に示す。以下、図8に従って、この動作フローを説明する。
まず、意図表現設定部6が、テキストデータ構造記憶部5から対象テキストの文節構造リスト(図5参照)を取り出し、各文節を構成する単語の表記および品詞(図5参照)を文節先頭から文節ID順に文節バッファに書き込む(S1)。そして、図4に例示されているような意図表現パターン辞書とのマッチング処理をおこなう(S2)。マッチングキーは少なくとも1単語あたり表記と品詞を用いる。その結果、マッチしなかったならば(S3でN)、文節バッファを空にし(S4)、次の文節があるならば(S5でY)、次の文節についてステップS1から繰り返す。
一方、ステップS3においてマッチした場合は(S3でY)、マッチした表現パターンが自立語の特定パターン(図4参照)か否かを判定する(S7)。そして、特定パターンであれば(S7でY)、係り文節があるか否かを判定し(S8)、係り文節があれば(S8でY)、その文節の自立語が形式名詞か否かを判定する(S9)。こうして、形式名詞であると判定されたならば(S9でY)、その文節への連体修飾(係り)文節があるか否かを判定し(S10)、あれば(S10でY)当該意図表現(図4参照)をテキストデータ構造(文節構造リスト)中のその連体修飾文節の意図表現の項に付加(設定)し(S11)、さらに、その意図表現をテキストデータ構造中のマッチ文節(S3においてマッチした文節)の意図表現の項に付加する(S13)。
それに対して、ステップS9において形式名詞でないと判定された場合(S9でN)、およびステップS10において連体修飾文節がないと判定された場合(S10でN)は、当該意図表現をテキストデータ構造中の当該係り文節の意図表現の項に付加し(S12)、さらに、その意図表現をテキストデータ構造中のマッチ文節(S3においてマッチした文節)の意図表現の項に付加する(S13)。また、ステップS7において特定パターンでないと判定された場合には(S7でN)、当該意図表現をテキストデータ構造中のマッチ文節(S3においてマッチした文節)の意図表現の項のみに付加する(S13)。
こうして、ステップS13が終了すると、次の文節があるか否かを判定し(S5)、あれば(S5でY)ステップS1から繰り返し、なければ(S5でN)テキストデータ構造記憶部5に記憶されている内容を意図表現の付加された内容に更新する(S6)。
次に、意図表現を用いて概念候補を生成する。概念表現には、単語の概念を扱う表現と、意図概念を扱う表現がある。本発明では、意図概念を扱う表現に主題を置くので、この実施例においては、意図概念の生成について説明する。単語の概念を扱う表現には言及しないが、例えば、単語の概念とその単語が属する文節に対して付与された意図表現とから、「単語概念+意図概念」という組み合わせの概念ももちろん生成できるので、その概念表現についても例示する。
【0011】
図9〜図10は、文書A〜Eに対して、文節に付与された意図表現から、文書の概念候補生成をおこなった例である。なお、図9(a)において、概念候補の項の左側の概念候補は「単語概念+意図概念」、右側の概念候補は「意図概念」、つまりカッコ外が単語概念でカッコ内が意図概念である(以下、同様)。また、この実施例では、各文節の意図表現ごとに意図表現の付加回数を数えるが、図10(e)の例ではb3の意図表現がb2にも付加されるので、b2の意図表現の数は、「+打消」が2つと偶数である。そこで、「+打消+打消」を「−打消」と変換する。
以上の処理で、文書A〜Eの文書群に対する、意図表現を利用した概念表現の生成が終了する。概念表現生成部8は生成した概念表現候補を概念表現記憶部9に記憶し、利用者が分析を行なう際、指定や呼び出しに応じて出力部10により記憶されている概念表現候補を表示装置などへ出力する。そして、利用者は、前記した例で「インストールに否定」的な意図の文書を集めてカテゴリを作成したいと考えた場合、表示された概念候補のなかから選択することにより概念「インストール(+打消)」の文書を検索する。こうして、文書A、B、Cにおいて、「インストール否定」カテゴリが生成される。
【0012】
概念表現生成の動作フローを図11に示す。以下、図11に従って、この動作フローを説明する。
まず、概念表現生成部8が、対象テキストの意図表現付加後の文節構造リストをテキストデータ構造記憶部5から取り出し、文節先頭から文節ID順に意図表現およびその文節の単語(形式名詞を含まない自立語のみ)(図9〜10参照)を意図情報バッファに書き込む(S21)。そして、文節ごとに打消意図の意図表現の数を数え(S22)、その数が偶数か否かを判定し(S23)、偶数であれば(S23でY)、複数個記載の打消意図を1個の肯定意図記載に変換する(S24)。図10(e)に示したように、「+打消+打消」であれば「−打消」というように変換するのである。
続いて、変換後の意図表現と単語の繋ぎ合わせ処理などをおこなって、概念候補(概念表現候補)を生成する(S25)。例えば、まず単語を記載し、その後に両端をカッコした意図表現を記載する(図9〜10参照)。この際、動詞は終止形に変換するというように、語尾変化のある単語については基本形にする。なお、概念候補は、単に意図表現だけの項も生成する(図9〜10参照)。
最後に、概念表現生成部8は概念候補を付加した文節構造リストを概念表現記憶部9に格納する(S26)。
【0013】
ところで、利用者が、文書A〜Eの文書から例えば「インストールの可否の統計を取りたい」と考えて、「可能(不可能は除く)」に言及している文書を抽出しようというとき、前記した実施例ではまず「可能」の文書カテゴリを生成し、そこから部分カテゴリ「+可能+打消」を作成し、「+可能」カテゴリと「+可能+打消」カテゴリの差分をとる必要があり、手間がかかる。
そこで、そのような場合には、予め意図表現が付いていないことを明示するようにする。例えば、「インストール(+可能−打消)」という概念を生成すれば、いくつもカテゴリを作成して差分を取るなどの手間なしに、打消表現の付かない可能だけの表現をもつ文書カテゴリを1回の検索で得ることが可能となるのである。そのため、具体的には、各文節に付与されなかった意図表現を概念生成時にマイナス表示などにより明示させる。例えば文書Dでは、意図表現が「+可能」のみであるが、「打消表現の有無を明示させる」機能を用いて、図12に示したような概念候補を追加生成するのである。
意図表現が付いていないことを予め明示する機能は、予めデフォルトで設定しておいてもよいが、設定しないで、利用者が分析時に任意に起動してもよい。起動の方法は、選択ボタンやキーボード入力など既存の入力手段を用いれば実現可能である。この機能を用いれば、「インストール(+可能−打消)」という概念を持つ文書を検索すればよく、その結果、文書Dと文書Eとから成る「インストールが可能(不可能は除く)」の文書カテゴリを作成することができる。
【0014】
図13に、このような概念表現生成の動作フローを示す。以下、図13に従って、この動作フローを説明する。
まず、概念表現生成部8が、対象テキストの意図表現付加後の文節構造リストをテキストデータ構造記憶部5から取り出し、文節先頭から文節ID順に意図表現およびその文節の単語(形式名詞を含まない自立語のみ)を意図情報バッファに書き込む(S31)。
続いて、付加されていない意図表現があるか否かを判定する(S32)。例えば、「+可能」のみが付加された意図表現があるか否かを判定するのである。そして、あった場合には(S32でY)、その意図表現に「−(マイナス)記号」付きの意図表現、例えば「+可能」の後に「−打消」、「−要望」、「−疑問」というような意図表現を付加する(S33)。
次に、変換後の意図表現と単語の繋ぎ合わせ処理などをおこなって、概念候補(概念表現候補)を生成する(S34)。この際、動詞は終止形に変換するというように、語尾変化のある単語については基本形にする。概念候補としては、単に意図表現だけの項も生成する(図9〜10参照)。
最後に、概念表現生成部8は概念候補を付加した文節構造リストを概念表現記憶部9に格納する(S35)。
なお、図13に示した動作フローのステップS33とS34の間において、図11に示したステップS22〜S24を実行させる構成も可能である。
以上、図1に示したシステム構成の場合で説明したが、説明したような概念表現生成方法に従ってプログラミングしたプログラムを着脱可能な記憶媒体に記憶し、その記憶媒体をこれまで本発明によった概念表現生成をおこなえなかったパーソナルコンピュータなど情報処理装置に装着することにより、または、そのようなプログラムをネットワークを介してそのような情報処理装置へ転送することにより、そのような情報処理装置においても本発明によった概念表現生成をおこなうことができる。
【0015】
【発明の効果】
以上説明したように、本発明によれば、請求項1および請求項2記載の発明では、対象とするテキストの概念表現を生成する際、テキストに対して少なくとも形態素解析および文節係り受け解析を含む言語解析をおこない、その言語解析結果に基づいてテキストを、少なくとも構成単語の表記、品詞、および係り受け情報を含む文節情報を有するテキストデータ構造に変換し、そのテキストデータ構造の文節情報を構成する単語の表記および品詞の並びが特定の表現パターンと一致した場合、その表現パターンに対応づけて記憶されている意図表現をそのテキストデータ構造の当該文節情報に対応づけて付加し、付加した意図表現を用いて概念表現を生成することができるので、テキストの内容を表現する有益な概念情報を低コストで表現できるし、利用者にわかりやすく、操作しやすい概念表現を実現できる。
また、請求項3記載の発明では、請求項2記載の発明において、意図表現に少なくとも打消表現を含むので、打消の意図を概念表現に用いることが可能となる。
また、請求項4記載の発明では、請求項3記載の発明において、当該文節の文節情報に打消の意の意図表現が偶数個付加された場合、その打消の意の意図表現が肯定の意の意図表現に変換されるので、利用者がこのような文法知識をもたなくても文意に沿った概念表現生成が可能となる。
また、請求項5記載の発明では、請求項2記載の発明において、意図表現に少なくとも可能表現を含むので、可能の意図を概念表現に用いることが可能となる。
また、請求項6記載の発明では、請求項2記載の発明において、意図表現に少なくとも要望表現を含むので、要望の意図を概念表現に用いることが可能となる。
【0016】
また、請求項7記載の発明では、請求項2記載の発明において、意図表現に少なくとも疑問表現を含むので、疑問の意図を概念表現に用いることが可能となる。
また、請求項8記載の発明では、請求項2記載の発明において、意図表現に少なくとも理由表現を含むので、理由の意図を概念表現に用いることが可能となる。
また、請求項9記載の発明では、請求項2記載の発明において、表記および品詞の並びで構成される特定の表現パターン、および対応する意図表現を、ユーザインタフェースを介して参照、追加、修正、または削除が可能なテーブル形式で記憶する意図表現パターン辞書が用いられるので、利用者が任意にカスタマイズでき、利用者の意図に合った概念表現を生成できる。
また、請求項10記載の発明では、請求項2記載の発明において、意図表現を付加する際、当該文節が、自立語そのものであり、特定の表現パターンと一致し、さらに、当該文節が受け文節になっている係り受け文節対が存在する場合、その係り受け文節対の係り文節の文節情報にも対応する意図表現が付加されるので、本来意図が付加されるべき係り文節にも意図表現を付加でき、したがって、文意に沿った概念表現を生成できる。
また、請求項11記載の発明では、請求項10記載の発明において、係り受け文節対の係り文節を構成する自立語が形式名詞であった場合、当該係り文節が連体修飾関係で受け文節になっている係り受け文節対が存在したならば、形式名詞を含む文節の代わりにその係り受け文節対の係り文節の文節情報に対応する意図表現が付加されるので、本来意図が付加されるべきもうひとつ前の係り文節に意図表現を付加することができ、したがって、文意に沿った概念表現を生成できる。
【0017】
また、請求項12記載の発明では、請求項2記載の発明において、概念表現を生成する際、所定の意図表現が付加されなかった文節を検出し、その文節に所定の意図表現がつかなかったことを明示できるので、いくつもカテゴリを作成して差分を取ったりする手間をかけずに、意図表現の付かない表現も加味した高い表現力をもつ概念表現を生成できる。
また、請求項13記載の発明では、請求項2乃至請求項12のいずれか1項に記載の概念表現生成方法によった概念表現生成を実行させるようにプログラミングされているプログラムを情報処理装置上で実行できるので、情報処理装置を用いて請求項2乃至請求項12のいずれか1項に記載の発明の効果を得ることができる。
また、請求項14記載の発明では、請求項13記載のプログラムを着脱可能な記憶媒体に記憶できるので、その記憶媒体をこれまで請求項2乃至請求項12のいずれか1項に記載の発明によった概念表現生成をおこなえなかったパーソナルコンピュータなど情報処理装置に装着することにより、そのような情報処理装置においても請求項2乃至請求項12のいずれか1項に記載の発明の効果を得ることができる。
【図面の簡単な説明】
【図1】本発明の実施の形態を示す概念表現生成システムの構成ブロック図。
【図2】本発明の実施の形態を示す概念表現生成システム要部のデータ構造図。
【図3】本発明の実施の形態を示す概念表現生成システム要部の他のデータ構造図。
【図4】本発明の実施の形態を示す概念表現生成システム要部のデータ構成図。
【図5】本発明の一実施例を示す概念表現生成システム要部のデータ構成図。
【図6】本発明の一実施例を示す概念表現生成システム要部の他のデータ構成図。
【図7】本発明の一実施例を示す概念表現生成システム要部の他のデータ構成図。
【図8】本発明の一実施例を示す概念表現生成システム要部の動作フロー図。
【図9】本発明の一実施例を示す概念表現生成システム要部の他のデータ構成図。
【図10】本発明の一実施例を示す概念表現生成システム要部の他のデータ構成図。
【図11】本発明の一実施例を示す概念表現生成システム要部の他の動作フロー図。
【図12】本発明の一実施例を示す概念表現生成システム要部の他のデータ構成図。
【図13】本発明の一実施例を示す概念表現生成システム要部の他の動作フロー図。
【符号の説明】
1 入力部、2 言語解析部、3 言語解析用辞書、4 テキストデータ構造生成部、5 テキストデータ構造記憶部、6 意図表現設定部、7 意図表現パターン辞書、8 概念表現生成部、9 概念表現記憶部、10 出力部
Claims (14)
- 対象とするテキストの概念表現を生成する概念表現生成システムにおいて、前記テキストに対して少なくとも形態素解析および文節係り受け解析を含む言語解析をおこなう言語解析手段と、該言語解析手段による言語解析結果に基づいて前記テキストを少なくとも構成単語の表記、品詞、および係り受け情報を含む文節情報を有するテキストデータ構造に変換するテキストデータ構造生成手段と、前記テキストデータ構造の文節情報を構成する単語の表記および品詞の並びが特定の表現パターンと一致した場合、その表現パターンに対応づけて記憶されている意図表現を前記テキストデータ構造の当該文節情報に対応づけて付加する意図表現設定手段と、付加された意図表現を用いて概念表現を生成する概念表現生成手段とを備えたことを特徴とする概念表現生成システム。
- 対象とするテキストの概念表現を生成する概念表現生成方法において、前記テキストに対して少なくとも形態素解析および文節係り受け解析を含む言語解析をおこない、その言語解析結果に基づいてテキストを、少なくとも構成単語の表記、品詞、および係り受け情報を含む文節情報を有するテキストデータ構造に変換し、そのテキストデータ構造の文節情報を構成する単語の表記および品詞の並びが特定の表現パターンと一致した場合、その表現パターンに対応づけて記憶されている意図表現を前記テキストデータ構造の当該文節情報に対応づけて付加し、付加した意図表現を用いて概念表現を生成することを特徴とする概念表現生成方法。
- 請求項2記載の概念表現生成方法において、前記意図表現に少なくとも打消表現を含むことを特徴とする概念表現生成方法。
- 請求項3記載の概念表現生成方法において、当該文節の文節情報に打消の意の意図表現が偶数個付加された場合、その打消の意の意図表現を肯定の意の意図表現に変換することを特徴とする概念表現生成方法。
- 請求項2記載の概念表現生成方法において、前記意図表現に少なくとも可能表現を含むことを特徴とする概念表現生成方法。
- 請求項2記載の概念表現生成方法において、前記意図表現に少なくとも要望表現を含むことを特徴とする概念表現生成方法。
- 請求項2記載の概念表現生成方法において、前記意図表現に少なくとも疑問表現を含むことを特徴とする概念表現生成方法。
- 請求項2記載の概念表現生成方法において、前記意図表現に少なくとも理由表現を含むことを特徴とする概念表現生成方法。
- 請求項2記載の概念表現生成方法において、表記および品詞の並びで構成される前記特定の表現パターン、および対応する意図表現を、ユーザインタフェースを介して参照、追加、修正、または削除が可能なテーブル形式で記憶する意図表現パターン辞書を用いることを特徴とする概念表現生成方法。
- 請求項2記載の概念表現生成方法において、意図表現を付加する際、当該文節が、自立語そのものであり、特定の表現パターンと一致し、さらに、当該文節が受け文節になっている係り受け文節対が存在する場合、その係り受け文節対の係り文節の文節情報にも対応する意図表現を付加することを特徴とする概念表現生成方法。
- 請求項10記載の概念表現生成方法において、前記係り受け文節対の係り文節を構成する自立語が形式名詞であった場合、当該係り文節が連体修飾関係で受け文節になっている係り受け文節対が存在した場合、前記形式名詞を含む文節の代わりにその係り受け文節対の係り文節の文節情報に対応する意図表現を付加することを特徴とする概念表現生成方法。
- 請求項2記載の概念表現生成方法において、概念表現を生成する際、所定の意図表現が付加されなかった文節を検出し、その文節に所定の意図表現がつかなかったことを明示することを特徴とする概念表現生成方法。
- 情報処理装置上で実行されるプログラムにおいて、請求項2乃至請求項12のいずれか1項に記載の概念表現生成方法によった概念表現生成が実行されるようにプログラミングされていることを特徴とするプログラム。
- プログラムを記憶した記憶媒体において、請求項13記載のプログラムを記憶したことを特徴とする記憶媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003122554A JP4300056B2 (ja) | 2003-04-25 | 2003-04-25 | 概念表現生成方法、プログラム、記憶媒体及び概念表現生成装置 |
CNB200480000557XA CN100463571C (zh) | 2003-04-25 | 2004-04-26 | 无线电通信系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003122554A JP4300056B2 (ja) | 2003-04-25 | 2003-04-25 | 概念表現生成方法、プログラム、記憶媒体及び概念表現生成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004326596A true JP2004326596A (ja) | 2004-11-18 |
JP4300056B2 JP4300056B2 (ja) | 2009-07-22 |
Family
ID=33500738
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003122554A Expired - Fee Related JP4300056B2 (ja) | 2003-04-25 | 2003-04-25 | 概念表現生成方法、プログラム、記憶媒体及び概念表現生成装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP4300056B2 (ja) |
CN (1) | CN100463571C (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009135411A1 (zh) * | 2008-05-09 | 2009-11-12 | 华为技术有限公司 | 一种路径切换的方法和设备 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015192311A1 (en) * | 2014-06-17 | 2015-12-23 | Telefonaktiebolaget L M Ericsson(Publ) | Reporting quality of experience of receiving digital content |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11355204A (ja) * | 1998-06-04 | 1999-12-24 | Nec Corp | Cdma移動通信システム及びcdma移動通信システムにおける送信電力制御方法 |
JP2001156752A (ja) * | 1999-11-24 | 2001-06-08 | Toshiba Corp | 移動無線端末装置 |
CA2394093C (en) * | 2000-10-11 | 2008-09-16 | Samsung Electronics Co., Ltd. | Apparatus and method for controlling transmit antenna array for physical downlink shared channel in a mobile communication system |
EP1209859A1 (de) * | 2000-11-22 | 2002-05-29 | Siemens Aktiengesellschaft | Verfahren, Anordnung und Verwendung eines geschützten Kanals zur Wiederherstellung einer unterbrochenen Switched connection |
-
2003
- 2003-04-25 JP JP2003122554A patent/JP4300056B2/ja not_active Expired - Fee Related
-
2004
- 2004-04-26 CN CNB200480000557XA patent/CN100463571C/zh not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009135411A1 (zh) * | 2008-05-09 | 2009-11-12 | 华为技术有限公司 | 一种路径切换的方法和设备 |
US8416747B2 (en) | 2008-05-09 | 2013-04-09 | Huawei Technologies Co., Ltd. | Method and device for path switchover |
Also Published As
Publication number | Publication date |
---|---|
CN100463571C (zh) | 2009-02-18 |
CN1698394A (zh) | 2005-11-16 |
JP4300056B2 (ja) | 2009-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5744873B2 (ja) | トラステッドクエリのシステムおよび方法 | |
US10296584B2 (en) | Semantic textual analysis | |
JP3266586B2 (ja) | データ分析システム | |
KR101136007B1 (ko) | 문서 감성 분석 시스템 및 그 방법 | |
US20090070327A1 (en) | Method for automatically generating regular expressions for relaxed matching of text patterns | |
CN103548023A (zh) | 基于本体的自动自助式用户支持 | |
JP2012520528A (ja) | 自然言語テキストの自動的意味ラベリングのためのシステム及び方法 | |
KR20100038378A (ko) | 지능적인 텍스트 주석을 위한 방법, 시스템 및 컴퓨터 프로그램 | |
WO2004001570A1 (ja) | 自然言語による既存データの記述方法及びそのためのプログラム | |
JPH1145274A (ja) | 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
US20050165712A1 (en) | Method for operating software object using natural language and program for the same | |
JP5228451B2 (ja) | 文書検索装置 | |
Kalyanpur et al. | Lifecycle of a Casual Web Ontology Development Process. | |
JP4300056B2 (ja) | 概念表現生成方法、プログラム、記憶媒体及び概念表現生成装置 | |
JP2008077512A (ja) | 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム | |
JP2007087157A (ja) | 翻訳システム、翻訳装置、翻訳方法及びプログラム | |
JP4378106B2 (ja) | 文書検索装置、文書検索方法及びプログラム | |
JP4024137B2 (ja) | 数量表現検索装置 | |
JP2004220226A (ja) | 検索文書のための文書分類方法及び装置 | |
JP2008276561A (ja) | 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体 | |
JPH11102372A (ja) | 文書要約装置及びコンピュータ読み取り可能な記録媒体 | |
JP4635585B2 (ja) | 質問応答システム、質問応答方法及び質問応答プログラム | |
JP2003099429A (ja) | 用語集生成装置及び用語集生成プログラム並びに用語集検索装置 | |
JPS63228326A (ja) | キ−ワ−ド自動抽出方式 | |
Klyueva et al. | Querying multi-word expressions annotation with CQL |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060306 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20060410 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080311 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080512 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090331 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090420 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120424 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130424 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140424 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |