JP3956730B2

JP3956730B2 - 言語処理装置

Info

Publication number: JP3956730B2
Application number: JP2002071372A
Authority: JP
Inventors: 智子大熊; 和貴平田
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2002-03-15
Filing date: 2002-03-15
Publication date: 2007-08-08
Anticipated expiration: 2022-03-15
Also published as: JP2003271596A

Description

【０００１】
【発明の属する技術分野】
本発明は、テキスト情報から重要語を抽出する言語処理装置に関し、特に、例えば認識誤りやあいまい性を含む対話データなどからでも、適切な単語を重要語として抽出する言語処理装置に関する。
【０００２】
【従来の技術】
例えば、対話データからその内容や話題を示すような重要語を抽出するために用いられてきた従来の方法では、入力された対話データから、単語辞書によるキーワードスポッティング若しくは形態素解析手段によって単語を抽出することが行われる。
【０００３】
特開平１１−３３４８号公報に記載の「電子対話用広告装置」では、あらかじめ単語辞書（広告辞書）を用意しておき、対話データ中に辞書に登録されている単語が現れると、その語を重要語として、その語に関連する情報（広告情報）を表示することが行われる。
特開平６−２３６４１０号公報に記載の「自動情報提供方法」では、単なる単語辞書ではなく、単語（話題）とその語が属する分野を記録したデータベースを用いて、対話がどの分野に属しているかを判定することや、属する分野が変換したことを検知することが行われる。
【０００４】
特開平８−１３７８７４号公報に記載の「対話処理装置」では、話題転換の有無の検出を行うために、入力された対話データに対して、同義語辞書と単語辞書と対比語辞書を備えた形態素解析装置によって、単語リストを作成することが行われる。
特開平１０−６９４８２号公報に記載の「話題処理装置」では、対話データ（発言オブジェクト）に対して形態素解析処理を行って、特定の種類の単語をキーワードとして抽出することが行われる。
【０００５】
【発明が解決しようとする課題】
しかしながら、上記した従来の重要語抽出の方法ではいずれも、対話データから単語辞書によるキーワードスポッティングや形態素解析を用いて単語を抽出した上で、単語のみを対象として記録装置に保持して、頻度を計数することや、空間ベクトル上で単語間の距離を計測することなどが行われる。このような従来の方法では、最初の単語抽出に一度失敗してしまうと、二度と正しい解を得ることができないといった問題がある。例えば、対話データがノイズつまり認識誤り文字や、あいまい性を含んでいる場合には、単語抽出に失敗する可能性は極めて高い。
【０００６】
具体例として、「このちほうのおおきなだいごみはさかなです。」というデータがあるときに、「だい」という部分が誤りであるか、或いは「大ごみ」と「醍醐味」とのあいまい性を含んでいる場合には、対話の正しい認識結果が｛この（連体詞）／地方（名詞-一般）／の（助詞-連体化）大きな（連体詞）／だい（誤り）／ゴミ（名詞-一般）／は（係助詞）／魚（名詞-一般）／です（助動詞）｝であっても、この文字列が{この（連体詞）／地方（名詞-一般）／の（助詞-連体化）大きな（連体詞）／醍醐味（名詞）／は（係助詞）／魚（名詞-一般）／です（助動詞）}という漢字かな混じりで表記された単語リストへ変換された後では、本来得たかった単語である「ゴミ」を抽出することができない上に、「醍醐味」という不要な単語をキーワードとして抽出してしまう可能性がある。
【０００７】
本発明は、このような従来の事情に鑑みなされたもので、例えばテキスト情報に誤りやあいまい性が含まれていても、適切な単語を重要語として抽出することができる言語処理装置などを提供することを目的とする。
更に具体的には、本発明では、例えば、音声認識装置などにより得られた対話データに誤りである文字列若しくはあいまい性のある文字列が含まれているような場合においても、これらの誤りやあいまい性をそのまま保持しておき、前後の対話などに応じて誤りやあいまい性を解消することにより、対話などの内容を表すための重要語を適切に抽出することを実現する。
【０００８】
【課題を解決するための手段】
上記目的を達成するため、本発明に係る言語処理装置では、テキスト情報記憶手段がテキスト情報を記憶し、テキスト情報取得手段がテキスト情報を取得し、一致文字列部分検出手段がテキスト情報取得手段により取得されたテキスト情報とテキスト情報記憶手段に記憶されたテキスト情報とで一致する文字列部分を検出し、重要語抽出手段が一致文字列部分検出手段により検出された文字列部分から重要語を抽出する。
【０００９】
従って、記憶されたテキスト情報と取得されたテキスト情報とで一致する文字列部分から重要語が抽出されるため、例えば記憶されたテキスト情報或いは取得されたテキスト情報に誤りやあいまい性が含まれるような場合においても、適切な重要語を抽出することができる。つまり、記憶されたテキスト情報と取得されたテキスト情報とに全く同一の誤りなどが含まれる場合を除いては、検出される一致する文字列部分に誤りなどが含まれないため、誤りなどを含んだ単語を重要語として抽出してしまう割合を従来と比べて低めることができ、これにより、適切な重要語を抽出することを実現することができる。
【００１０】
なお、図３には、本発明に係る言語処理装置の概略的な構成例として、テキスト情報記憶手段の機能を有するテキスト情報記憶部３１と、テキスト情報取得手段の機能を有するテキスト情報取得部３２と、一致文字列部分検出手段の機能を有する一致文字列部分検出部３３と、重要語抽出手段の機能を有する重要語抽出部３４とを示してあり、また、テキスト情報記憶部３１から一致文字列部分検出部３３へ供給されるテキスト情報４１を示してある。
【００１１】
ここで、記憶されるテキスト情報や取得されるテキスト情報としては、種々な情報が用いられてもよく、例えば文章を含んだ情報が用いられる。
また、一致する文字列部分を検出するために用いられる記憶されたテキスト情報の数や取得されたテキスト情報の数としては、例えば１つずつといった態様が用いられるが、他の態様として、いずれか或いは両方が複数であってもよく、この場合には、３つ以上の全てのテキスト情報で一致する文字列部分を検出する。
【００１２】
また、一致する文字列部分を検出するために用いる記憶されたテキスト情報と取得されたテキスト情報としては、好ましい態様として、例えば話題の内容は同一又は類似であるが異なる文章を含むようなテキスト情報が用いられる。具体的には、例えば、対話や講演会などにおける同一又は類似の話題に関する過去の発言のテキスト情報と現在の発言のテキスト情報や、また、美術館内の同一の展示場などのように同一の場所における複数の人の意見やアンケートのテキスト情報など、種々なテキスト情報を用いることができる。
【００１３】
また、テキスト情報記憶手段としては、例えばメモリを用いて構成することができる。
また、テキスト情報取得手段によりテキスト情報を取得する仕方としては、必ずしもテキスト情報の形式で取得する仕方ばかりでなく、例えば音声情報の形式をテキスト情報の形式へ変換して取得する仕方など、種々な仕方が用いられてもよい。
【００１４】
また、一致文字列部分検出手段により検出する文字列部分としては、例えば記憶されたテキスト情報と取得されたテキスト情報とに含まれる共通な文字列の部分が検出される。また、必ずしも２文字以上から成る文字列ばかりでなく、例えば１文字を文字列として検出するような態様が用いられてもよい。また、検出する文字列の数としては、特に限定はなく、種々な数が用いられてもよい。
また、文字列を構成する文字としては、必ずしもひらがなやカタカナやローマ字などばかりでなく、例えば記号などの種々なものが含まれてもよい。
【００１５】
また、一致文字列部分検出手段により文字列部分を検出する仕方としては、種々な仕方が用いられてもよく、好ましい態様として、例えば、テキスト情報を単語に区切る前の表音文字から成る意味を持たせていない文字の並びとして見て、前方から後方へ順に或いは後方から前方へ順に、一致する文字の並び部分を一致する文字列部分として検出するような仕方を用いることができる。
【００１６】
また、重要語抽出手段により抽出する重要語としては、種々な語であってもよい。
また、重要語抽出手段により重要語を抽出する仕方としては、種々な仕方が用いられてもよく、例えば、検出された一致する文字列部分の中で意味を持った単語を検出して当該単語を重要語として抽出する。
また、抽出される重要語については、例えば、メモリなどの記憶手段に記憶することや、画面などの表示手段に表示することなどが行われる。
【００１７】
また、本発明に係る言語処理装置では、一構成例として、テキスト情報記憶手段に記憶されるテキスト情報は、音声情報を音声認識して得られたテキスト情報である。
また、本発明に係る言語処理装置では、一構成例として、テキスト情報取得手段では、音声情報入力手段が音声情報を入力し、音声認識手段が音声情報入力手段により入力された音声情報を音声認識してテキスト情報へ変換する。
【００１８】
従って、例えば人が発する音声情報に関して、重要語を抽出することができる。一般に、音声情報を音声認識して得られるテキスト情報には認識誤りなどが生じ得るため、本発明が特に有効となる。
ここで、音声情報としては、種々な情報が用いられてもよい。
また、音声認識の処理としては、例えば一般に知られている技術を用いることが可能である。
また、音声情報入力手段としては、例えばマイクを用いて構成することができる。
【００１９】
また、本発明に係る言語処理装置では、好ましい態様例として、テキスト情報記憶手段に記憶されるテキスト情報とテキスト情報取得手段により取得されるテキスト情報とは互いに関連した内容を有する。
具体的には、例えば記憶されるテキスト情報と取得されるテキスト情報とで共通の単語を含むようなテキスト情報が用いられ、このような共通の単語を重要語として抽出することができる。
【００２０】
また、本発明に係る言語処理装置では、一構成例として、テキスト情報取得手段の音声情報入力手段は２人以上により行われる対話で現在に発せられる音声情報を入力し、テキスト情報記憶手段に記憶されたテキスト情報は当該対話で過去に発せられた音声情報を音声認識して得られたテキスト情報である。
従って、例えば同一又は類似の話題について話している対話内容に関して、話者が発する言葉の情報から重要語を抽出することができる。
【００２１】
また、本発明に係る言語処理装置では、一構成例として、テキスト情報記憶手段は記憶したテキスト情報を所定の期間となったことに応じて記憶内容から削除する。
従って、例えば対話の区切り目などの所定の期間毎に重要語を抽出することができる。
【００２２】
ここで、所定の期間としては、種々な期間が用いられてもよく、例えば５分間や１０分間などの予め定められた期間を用いることができる。好ましい態様の具体例として、１０分間の対話において１０分間を所定の期間として用いることができ、また、５分毎に話題の内容が切り替わる対話において５分間を所定の期間として用いることができ、また、会議での対話において当該会議が終了するまでの期間を所定の期間として用いることができ、また、美術館内の所定の絵画についての対話について当該絵画が展示されている期間を所定の期間として用いることができる。
【００２３】
また、本発明に係る言語処理装置では、話題転換検出手段がテキスト情報取得手段の音声情報入力手段により入力される音声情報又はテキスト情報取得手段の音声認識手段により変換されるテキスト情報に基づいて対話における話題の転換を検出し、テキスト情報記憶手段は記憶したテキスト情報を話題転換検出手段により話題転換が検出されたことに応じて記憶内容から削除する。
従って、例えば対話における話題の転換が発生するまでの期間毎に重要語を抽出することができる。
【００２４】
ここで、対話における話題の転換としては、例えば「ところで」や「話は変わるが」などのように話題の転換点を示す所定の語句を検出することや、例えば所定の時間以上の無音声時間（音声が発せられない時間）を話題の転換点とみなして検出することができる。
【００２５】
また、本発明に係る言語処理装置では、一構成例として、テキスト情報取得手段はネットワーク上においてテキスト情報を用いて２人以上により行われる対話で現在に発せられるテキスト情報を取得し、テキスト情報記憶手段に記憶されたテキスト情報は当該対話で過去に発せられたテキスト情報である。
従って、例えばインターネット上のチャットなどで発せられるテキスト情報から重要語を抽出することができる。
【００２６】
また、本発明に係る言語処理装置では、一構成例として、重要語抽出手段では、形態素解析手段が一致文字列部分検出手段により検出された文字列部分を形態素解析して品詞情報付きの単語リストを取得し、所定品詞単語抽出手段が形態素解析手段により取得された単語リストの中から所定の品詞の単語を重要語として抽出する。
【００２７】
ここで、形態素解析の処理としては、例えば一般に知られている技術を用いることが可能である。
また、品詞情報付きの単語リストとしては、例えば検出された文字列部分を品詞の情報が付いた単語のリストへ変換したものが用いられる。
また、所定の品詞の単語の当該品詞としては、例えば名詞などの種々な品詞が用いられてもよい。具体的には、例えば名詞などの必要な品詞の単語を抽出する一方、例えば助詞などの不要な品詞の単語を抽出しないような態様を用いることができる。
【００２８】
また、本発明に係る言語処理装置では、一構成例として、重要語抽出手段では、重要語候補単語記憶手段が重要語として抽出する候補となる単語を記憶し、一致単語抽出手段が一致文字列部分検出手段により検出された文字列部分の中から重要語候補単語記憶手段に記憶された単語と一致する単語を重要語として抽出する。
【００２９】
ここで、重要語候補単語記憶手段に記憶される単語としては、種々な単語が用いられてもよい。当該記憶される単語は、重要語を抽出するためのキーワードとして用いられ、つまり、検出された文字列部分の中に当該キーワードと一致する単語がある場合には、当該単語が重要語として抽出される。
また、重要語候補単語記憶手段に記憶される単語の数としては、種々な数が用いられてもよい。
また、重要語候補単語記憶手段としては、例えばメモリを用いて構成することができる。
【００３０】
また、本発明に係る言語処理装置では、重要語抽出手段は一致文字列部分検出手段により検出された文字列部分から所定の条件を満たす語を除いて重要語を抽出する。
ここで、所定の条件としては、種々な条件が用いられてもよい。具体例として、１文字の語という条件が用いられる場合には、１文字の語を除いて重要語が抽出され、つまり、２文字以上の重要語が抽出される。
【００３１】
また、本発明に係る言語処理装置では、重要度付与手段が重要語抽出手段により抽出される重要語に対して重要度を付与する。
ここで、重要語の重要度としては、例えば、重要である方が値が大きくなる数値などを用いることができる。また、重要語の重要度は、例えば複数の重要語が抽出されたような場合に、これら複数の重要語を順序付けるためや、これら複数の重要語から一部を選択するためなどに用いることができる。
【００３２】
また、本発明に係る言語処理装置では、一構成例として、重要度付与手段では、重要度出現頻度演算手段が重要語抽出手段により抽出される重要語の出現頻度を演算し、重要語出現頻度情報記憶手段が重要語抽出手段により抽出された重要語と当該重要語の出現頻度の情報とを対応付けて記憶し、重要語重要度演算手段が重要語の出現頻度に基づいて当該重要語の重要度を演算する。
【００３３】
ここで、重要語出現頻度情報記憶手段としては、例えばメモリを用いて構成することができる。
また、重要語の出現頻度としては、例えば同一の重要語が抽出された回数などを用いることができる。また、例えば重要語の重要度が当該重要語の出現頻度に比例するような態様を用いることができる。
【００３４】
また、本発明に係る言語処理装置では、一構成例として、単語間関連度情報記憶手段が単語間の関連度の情報を記憶し、重要語関連語取得手段が単語間関連度情報記憶手段の記憶内容に基づいて重要語抽出手段により抽出された重要語に関連する他の単語を取得する。なお、取得される当該他の単語は、例えば、対話を行っている者たちに対して次の話題を考えるための重要語を提供する場合などにおいて、抽出された重要語から推測される他の重要語として用いられる。
【００３５】
ここで、単語間関連度情報記憶手段としては、例えばメモリを用いて構成することができる。
また、単語間の関連度の情報としては、例えば関連のある複数の単語の情報及びこれらの関連度の情報などが用いられる。
また、重要語関連語取得手段により取得する単語としては、種々な単語が用いられてもよく、例えば抽出された複数の重要語に最も関連する１つの単語を取得することや、また、例えば抽出された重要語に関連する全ての単語を取得することなどができる。
【００３６】
また、以上に示したような本発明に係る技術思想は、例えば方法や、プログラムや、このようなプログラムを記憶した記憶媒体などに適用することも可能である。
例えば、本発明に係る言語処理方法では、テキスト情報を取得し、取得したテキスト情報と記憶手段に記憶されたテキスト情報とで一致する文字列部分を検出し、検出した文字列部分から重要語を抽出する。
ここで、記憶手段としては、例えばメモリを用いて構成される。
【００３７】
また、本発明に係るプログラムでは、テキスト情報を取得する機能と、取得したテキスト情報とメモリに記憶されたテキスト情報とで一致する文字列部分を検出する機能と、検出した文字列部分から重要語を抽出する機能と、をコンピュータにより実現する。
ここで、プログラムとしては、種々なプログラムが用いられてもよい。
【００３８】
また、本発明に係る記憶媒体では、コンピュータに実行させるプログラムを当該コンピュータの入力手段により読み取り可能に記憶しており、当該プログラムは、テキスト情報を取得する処理と、取得したテキスト情報とメモリに記憶されたテキスト情報とで一致する文字列部分を検出する処理と、検出した文字列部分から重要語を抽出する処理を当該コンピュータに実行させる。
ここで、記憶媒体としては、例えばフロッピー（登録商標）ディスクや、ＣＤ（Compact Disk）−ＲＯＭ（Read Only Memory）などの種々なものが用いられてもよい。
【００３９】
【発明の実施の形態】
本発明に係る一実施例を図面を参照して説明する。
本例では、対話データから重要語を抽出する対話処理装置に本発明を適用した場合を示す。
図１には、本例の対話処理装置の構成例を示してある。
本例の対話処理装置には、マイクデバイス１１とディクテーション処理部１２を有する対話入力部１と、対話記録装置１３と入力データ格納部１４を有する対話記録部２と、文字列比較部１５を有する対話比較部３と、単語辞書部１６と形態素解析部１７と重要語単語抽出部１８を有する重要語抽出部４とが備えられている。
【００４０】
対話入力部１は、対話を認識して音声データからテキストデータへ変換する。
対話記録部２は、対話比較部３により比較を終えたテキストデータを対話記録装置１３に格納する。
対話比較部３は、過去の対話におけるテキストデータと現在に入力されたテキストデータとを比較し、一致した文字列を出力する。
重要語抽出部４は、当該一致した文字列に対して形態素解析を行って当該文字列を品詞情報付きの単語リストへ変換し、当該単語リストから特定の品詞の単語を重要語として出力する。
【００４１】
以下で、本例の対話処理装置により行われる動作の一例を示す。本例では、例えば誤り文字列やあいまい性を含むような音声データから重要語を抽出する。
対話入力部１では、対話における音声をマイクデバイス１１から入力し、マイクデバイス１１から入力された音声データをディクテーション処理部１２によりひらがなや、カタカナや、ローマ字などの表音記号によって表されるテキストデータへ変換して対話比較部３へ出力する。
【００４２】
対話比較部３では、対話入力部１から受け取ったテキストデータを文字列比較部１５により過去の対話記録データ２１と比較して、一致する部分の文字列を重要語抽出部４へ出力する。ここで、過去の対話記録データ２１は、対話における過去の音声データをテキストデータとしたものであり、対話記録部２から供給される。また、文字列比較部１５は、対話入力部１から受け取ったテキストデータを対話記録部２へ出力する。
【００４３】
対話記録部２では、対話入力部１から受け取って対話比較部３による前記比較処理が終了したテキストデータを入力データ格納部３４により対話記録装置１３に保持してある対話記録データに追加する形で記録する。具体例として、入力されるテキストデータが「このちほうのおおきなだいごみはさかなです」という文のテキストデータであり、追加前の対話記録データが「ごみのふほうとうきがこのちほうでもしんこくです」という文のテキストデータであった場合には、追加後の対話記録データは「ごみのふほうとうきがこのちほうでもしんこくです／このちほうのおおきなだいごみはさかなです」という文のテキストデータとなる。
【００４４】
なお、対話記録装置１３に記録された対話データを、例えば一定の期間保持した後に、削除するような態様を用いることもできる。また、例えば特開平８−１３７８７４号公報などに記載された既存の技術を用いて話題転換を検出し、話題転換が行われると同時に、対話記録装置１３に記録された対話データを削除するような態様を用いることもできる。
【００４５】
重要語抽出部４では、まず、形態素解析部１７が、品詞情報などを記述した単語辞書を格納した単語辞書部１６の辞書内容を参照して、対話比較部３から入力された文字列に対して形態素解析を行うことにより、当該文字列について単語毎に区切られて各単語に品詞情報が付与された単語リストを生成して重要語単語抽出部１８へ出力する。次に、重要語単語抽出部１８が、形態素解析部１７から入力された単語リストから特定の品詞の単語や特定の語を抽出し、これらを重要語２２として出力する。
【００４６】
次に、図２を参照して、文字列比較部１５により、対話入力部１から入力されるテキストデータと対話記録部２に記録された対話データとを比較して一致する文字列を出力する処理の手順の一例を示す。
まず、対話入力部１から入力されるテキストデータをString_currentという変数に読み込む（ステップＳ１）。本例では、入力されるテキストデータが「このちほうのおおきなだいごみはさかなです」という文のテキストデータであると想定する。
【００４７】
次に、対話記録装置１３から過去の対話におけるテキストデータ（過去の対話データ）を入力してString_logに読み込む（ステップＳ２）。本例では、入力される対話データが「ごみのふほうとうきがこのちほうでもしんこくです」という文のテキストデータであると想定する。
次に、上記したString_currentをString_orgという変数にコピーする（ステップＳ３）。
【００４８】
ここで、以降の処理（ステップＳ５〜ステップＳ１０の処理）については、ループ１の処理として、String_orgの文字列の長さが０になるまで処理を繰り返す（ステップＳ４）。
また、以降の処理（ステップＳ７、ステップＳ８、ステップＳ１０の処理）については、ループ２の処理として、String_currentの文字列の長さが０になるまで処理を繰り返す（ステップＳ５）。
【００４９】
ループ１の処理の中のループ２の処理では、まず、String_currentとString_logとを比較して、String_currentの全体がString_logの一部と一致するか否かを判定する（ステップＳ６）。一致しない場合には、String_currentの最後尾の１文字を削除する（ステップＳ１０）。
【００５０】
本例では、まず、「このちほうのおおきなだいごみはさかなです」という文字の列と「ごみのふほうとうきがこのちほうでもしんこくです」という文字の列とが比較される。この段階では、両者の間には上記のような部分的な一致の関係がないため、String_currentの最後尾の一文字が削除されて、String_currentは「このちほうのおおきなだいごみはさかなで」という文字の列になる。そして、このような１文字の削除処理を繰り返した結果、本例では、String_currentは「このちほう」という文字の列となり、この段階で、String_logの一部と一致する。
【００５１】
このように、String_currentの文字列がString_logと部分的に一致すると（ステップＳ６）、当該String_currentの文字列が重要語抽出部４へ出力される（ステップＳ７）。
次に、String_currentと一致した箇所の文字列部分をString_orgから削除し、当該削除後のString_orgの文字列をString_currentにコピーする（ステップＳ８）。本例では、「このちほう」という文字列部分がString_orgから削除され、この結果、当該削除後のStr ing_orgは「のおおきなだいごみはさかなです」という文字の列になる。
【００５２】
上記のようなループ２の処理を繰り返して行った結果、String_currentの長さが０になると、当該ループ２の処理をいったん終了する。
そして、ループ１の処理として、String_orgの先頭の一文字を削除して（ステップＳ９）、その後、String_orgをString_currentにコピーして、上記したループ２の処理を再び行う。本例では、１回目のループ２の処理では、String_orgは「のおおきなだいごみはさかなです」になる。
【００５３】
上記のようなループ２の処理を含むループ１の処理を繰り返して行った結果、String_orgの長さが０になると、処理を終了する。本例では、このような文字列比較部１５による処理により、「このちほう」、「の」、「き」、「ごみ」、「です」という５つの文字列が検出されて重要語抽出部４へ出力される。
【００５４】
次に、重要語抽出部４により、重要語を抽出する処理の手順の一例を示す。
まず、形態素解析部１７が、単語辞書部１６の単語辞書を参照して、対話比較部３から入力された文字列を品詞情報付きの単語リストへ変換する。本例では、変換対象となる文字列として、「このちほう」、「の」、「き」、「ごみ」、「です」という５つの文字列が入力されたと想定する。この場合、本例では、これらの文字列を変換した結果、｛この（連体詞）／ちほう（名詞-一般）｝、｛の（連体助詞）｝、｛き（名詞-一般）｝、｛ごみ（名詞-一般）｝、{です(助動詞)}という情報が品詞情報付きの単語リストとして得られる。
【００５５】
次に、重要語単語抽出部１８が、形態素解析部１７により得られた単語リストから、特定の品詞の単語を抽出する。本例では、名詞を抽出対象とする。この場合、本例では、「ちほう」、「き」、「ごみ」という３つの語が重要語２２として抽出される。
【００５６】
なお、例えば、形態素解析を行う前に、前記した「の」のような長さが１である文字列については削除するなどといったフィルタリング処理を行う構成とすることも可能である。このようなフィルタリング処理を行う構成では、前記した４つの文字列から、１文字の文字列に該当する「の」と「き」が削除されることとなるため、重要語としては「ちほう」と「ごみ」という２つの語が抽出される。
【００５７】
また、例えば、特開平８−１３７８７４号公報などに記載された既存の技術を用いて、抽出された重要語に対してその出現頻度に基づいて重要度を付与し、付与した重要度に応じて複数の重要語を任意の数に絞り込むような処理を行う構成とすることも可能である。
また、例えば、単語と単語との間の関連度を記述した辞書に問い合わせて、抽出された重要語に関連の高い語を選定することにより、新たな重要語を予測するような処理を行う構成とすることも可能である。
【００５８】
以上のように、本例の対話処理装置では、対話入力部１が例えば２人以上により行われる対話から音声データを受け取って当該音声データをテキストデータへ変換し、対話比較部３が入力されたテキストデータ（対話データ）と記録しておいた過去のテキストデータ（対話データ）とを比較して一致した部分の文字列を出力し、対話記録部２が入力された対話データを記憶し、重要語抽出部４が対話比較部３から受け取った文字列から特定の単語を抽出することが行われる。
【００５９】
また、本例の対話処理装置では、例えば対話記録部２が入力された対話データを或る一定の期間のみ記憶することや、例えば対話記録部２が入力された対話データを話題転換が検出されるまで記憶することが行われる。
【００６０】
また、本例の対話処理装置では、例えば重要語抽出部４が対話比較部３から受け取った文字列を形態素解析部１７により品詞情報付きの単語リストへ変換して重要語単語抽出部１８により特定の品詞の単語を抽出することや、例えば重要語抽出部４が単語辞書保持装置によりキーワードとなる単語を記憶して重要語単語抽出部１８により対話比較部３から受け取った文字列の中から単語辞書保持装置に記憶されたキーワードと一致する単語を抽出することが行われる。
【００６１】
また、本例の対話処理装置では、例えば重要語抽出部４がフィルタリング機能により対話比較部３から受け取った文字列から不要な文字列を削除して重要語を抽出することが行われる。具体例としては、予め設定された条件に合う文字列を重要語抽出の対象から削除する構成とし、例えば、１文字から成る文字列や、不明な記号を含む文字列や、「」（かぎかっこ）やメールアドレスで用いられる＠といった記号の文字列などを重要語抽出の対象から削除するように設定する。
【００６２】
また、本例の対話処理装置では、例えば重要語抽出部４が重要度付与機能により単語に対して重要度を付与することが行われる。
また、本例の対話処理装置では、重要度付与の処理として、例えば頻度計算機能が抽出された単語の頻度を計算し、頻度情報保持装置が単語と頻度の情報を保持し、重要度計算機能が頻度情報に基づいて単語の重要度を計算することが行われる。
【００６３】
また、本例の対話処理装置では、例えば重要語抽出部４が、関連語辞書保持装置により単語間の関連度を記述してある関連語辞書を保持して、重要語予測機能により単語間の関連度に基づいて新たな語を予測して重要語として出力することが行われる。
【００６４】
また、本例の対話処置装置では、対話における音声データをテキストデータへ変換して重要語を抽出する構成例を示したが、他の構成例として、チャットなどにおけるテキストデータを入力して当該テキストデータから重要語を抽出するようなことも可能であり、この場合、例えば対話入力部１は、ネットワーク上において２人以上により文字列によって対話を行うことができる文字入力端末を備える。文字入力端末としては、例えばキーボードを備えるパーソナルコンピュータなど、種々なものを用いて構成することができる。
【００６５】
以上のような構成により、本例の対話処理装置では、例えば認識誤りやあいまい性を含む音声認識データなどからであっても、このような認識誤りなどの影響を低減させて、適切な重要語を抽出することが可能であり、抽出される重要語の確からしさを高めることができる。
【００６６】
なお、本例では、対話記録部２の機能によりテキスト情報記憶手段が構成されており、対話入力部１の機能によりテキスト情報取得手段が構成されており、対話比較部３の機能により一致文字列部分検出手段が構成されており、重要語抽出部４の機能により重要語抽出手段が構成されている。
また、本例では、マイクデバイス１１の機能により音声情報入力手段が構成されており、ディクテーション処理部１２の機能により音声認識手段が構成されている。
【００６７】
また、本例では、形態素解析部１７の機能により形態素解析手段が構成されており、重要語単語抽出部１８の機能により所定品詞単語抽出手段が構成されている。
また、本例では、例えば、重要語として抽出する候補となる単語を記憶する重要語候補単語記憶手段の機能及び当該記憶された単語と一致する単語を文字列部分の中から重要語として抽出する一致単語抽出手段の機能を重要語抽出部４に備えることもできる。
【００６８】
また、本例では、例えば、話題の転換を検出する話題転換検出手段の機能を対話記録部２などに備えることもできる。
また、本例では、例えば、重要度付与手段の機能を重要語抽出部４などに備えることもでき、当該機能として例えば重要語出現頻度演算手段の機能と重要語出現頻度情報記憶手段の機能と重要語重要度演算手段の機能を重要語抽出部４などに備えることもできる。
また、本例では、例えば、単語間関連度情報記憶手段の機能及び単語間の関連度の情報に基づいて抽出された重要語に関連する他の単語を取得する重要語関連語取得手段の機能を重要語抽出部４などに備えることもできる。
【００６９】
ここで、本発明に係る言語処理装置などの構成としては、必ずしも以上に示したものに限られず、種々な構成が用いられてもよい。
また、本発明の適用分野としては、必ずしも以上に示したものに限られず、本発明は、種々な分野に適用することが可能なものである。
【００７０】
また、本発明に係る言語処理装置などにおいて行われる各種の処理としては、例えばプロセッサやメモリ等を備えたハードウエア資源においてプロセッサがＲＯＭ（Read Only Memory）に格納された制御プログラムを実行することにより制御される構成が用いられてもよく、また、例えば当該処理を実行するための各機能手段が独立したハードウエア回路として構成されてもよい。
また、本発明は上記の制御プログラムを格納したフロッピー（登録商標）ディスクやＣＤ（Compact Disc）−ＲＯＭ等のコンピュータにより読み取り可能な記録媒体や当該プログラム（自体）として把握することもでき、当該制御プログラムを記録媒体からコンピュータに入力してプロセッサに実行させることにより、本発明に係る処理を遂行させることができる。
【００７１】
【発明の効果】
以上説明したように、本発明に係る言語処理装置によると、例えば過去のテキスト情報を記憶し、例えば現在のテキスト情報を取得し、取得したテキスト情報と記憶されたテキスト情報とで一致する文字列部分を検出し、検出した文字列部分から重要語を抽出するようにしたため、例えば記憶されるテキスト情報や取得されるテキスト情報に誤りやあいまい性が含まれるような場合においても、適切な重要語を抽出することができる。
【図面の簡単な説明】
【図１】本発明の一実施例に係る対話処理装置の構成例を示す図である。
【図２】文字列比較部により行われる処理の手順の一例を示す図である。
【図３】本発明に係る言語処理装置の概略的な構成例を示す図である。
【符号の説明】
１・・対話入力部、２・・対話記録部、３・・対話比較部、
４・・重要語抽出部、１１・・マイクデバイス、
１２・・ディクテーション処理部、１３・・対話記録装置、
１４・・入力データ格納部、１５・・文字列比較部、１６・・単語辞書部、
１７・・形態素解析部、１８・・重要語単語抽出部、
２１・・対話記録データ、２２・・重要語、３１・・テキスト情報記憶部、
３２・・テキスト情報取得部、３３・・一致文字列部分検出部、
３４・・重要語抽出部、４１・・テキスト情報、

Claims

２人以上により行われる対話で現在に発せられる音声情報を入力する音声情報入力手段と、前記音声情報入力手段により入力された音声情報を音声認識してテキスト情報へ変換する音声認識手段を用いて構成され、当該テキスト情報を取得するテキスト情報取得手段と、
前記対話で過去に発せられた音声情報から前記テキスト情報取得手段により取得されたテキスト情報を記憶するテキスト情報記憶手段と、
前記テキスト情報取得手段により現在に取得されたテキスト情報と前記テキスト情報記憶手段に記憶された過去のテキスト情報とで一致する文字列部分を検出する一致文字列部分検出手段と、
前記一致文字列部分検出手段により検出された文字列部分から重要語を抽出する重要語抽出手段と、
を備えたことを特徴とする言語処理装置。
ネットワーク上においてテキスト情報を用いて２人以上により行われる対話で現在に発せられるテキスト情報を取得するテキスト情報取得手段と、
前記テキスト情報取得手段により取得された前記対話で過去に発せられたテキスト情報を記憶するテキスト情報記憶手段と、
前記テキスト情報取得手段により現在に取得されたテキスト情報と前記テキスト情報記憶手段に記憶された過去のテキスト情報とで一致する文字列部分を検出する一致文字列部分検出手段と、
前記一致文字列部分検出手段により検出された文字列部分から重要語を抽出する重要語抽出手段と、
を備えたことを特徴とする言語処理装置。
請求項１又は請求項２に記載の言語処理装置において、
前記テキスト情報記憶手段は、記憶したテキスト情報を所定の期間となったことに応じて記憶内容から削除する、
ことを特徴とする言語処理装置。
請求項１に記載の言語処理装置において、
前記テキスト情報取得手段の前記音声情報入力手段により入力される音声情報又は前記テキスト情報取得手段の前記音声認識手段により変換されるテキスト情報に基づいて前記対話における話題の転換を検出する話題転換検出手段を備え、
前記テキスト情報記憶手段は、記憶したテキスト情報を前記話題転換検出手段により話題転換が検出されたことに応じて記憶内容から削除する、
ことを特徴とする言語処理装置。
請求項２に記載の言語処理装置において、
前記テキスト情報取得手段により取得されるテキスト情報に基づいて前記対話における話題の転換を検出する話題転換検出手段を備え、
前記テキスト情報記憶手段は、記憶したテキスト情報を前記話題転換検出手段により話題転換が検出されたことに応じて記憶内容から削除する、
ことを特徴とする言語処理装置。
請求項１乃至請求項５のいずれか１項に記載の言語処理装置において、
前記重要語抽出手段は、前記一致文字列部分検出手段により検出された文字列部分を形態素解析して品詞情報付きの単語リストを取得する形態素解析手段と、前記形態素解析手段により取得された単語リストの中から所定の品詞の単語を重要語として抽出する所定品詞単語抽出手段とを用いて構成された、
ことを特徴とする言語処理装置。
請求項１乃至請求項５のいずれか１項に記載の言語処理装置において、
前記重要語抽出手段は、重要語として抽出する候補となる単語を記憶する重要語候補単語記憶手段と、前記一致文字列部分検出手段により検出された文字列部分の中から前記重要語候補単語記憶手段に記憶された単語と一致する単語を重要語として抽出する一致単語抽出手段とを用いて構成された、
ことを特徴とする言語処理装置。
請求項１乃至請求項７のいずれか１項に記載の言語処理装置において、
前記重要語抽出手段は、前記一致文字列部分検出手段により検出された文字列部分から所定の条件を満たす語を除いて重要語を抽出する、
ことを特徴とする言語処理装置。
請求項１乃至請求項８のいずれか１項に記載の言語処理装置において、
前記重要語抽出手段により抽出される重要語に対して重要度を付与する重要度付与手段を備えた、
ことを特徴とする言語処理装置。
請求項９に記載の言語処理装置において、
前記重要度付与手段は、前記重要語抽出手段により抽出される重要語の出現頻度を演算する重要語出現頻度演算手段と、前記重要語抽出手段により抽出された重要語と当該重要語の出現頻度の情報とを対応付けて記憶する重要語出現頻度情報記憶手段と、重要語の出現頻度に基づいて当該重要語の重要度を演算する重要語重要度演算手段とを用いて構成された、
ことを特徴する言語処理装置。
請求項１乃至請求項１０のいずれか１項に記載の言語処理装置において、
単語間の関連度の情報を記憶する単語間関連度情報記憶手段と、
前記単語間関連度情報記憶手段の記憶内容に基づいて前記重要語抽出手段により抽出された重要語に関連する他の単語を取得する重要語関連語取得手段と、
を備えたことを特徴とする言語処理装置。
言語処理装置により行われる言語処理方法において、
前記言語処理装置に備えられたテキスト情報取得手段が、当該テキスト情報取得手段を構成する音声情報入力手段により２人以上により行われる対話で現在に発せられる音声情報を入力し、当該テキスト情報取得手段を構成する音声認識手段により前記音声情報入力手段により入力された音声情報を音声認識してテキスト情報へ変換して、当該テキスト情報を取得し、
前記言語処理装置に備えられたテキスト情報記憶手段が、前記対話で過去に発せられた音声情報から前記テキスト情報取得手段により取得されたテキスト情報を記憶し、
前記言語処理装置に備えられた一致文字列部分検出手段が、前記テキスト情報取得手段により現在に取得されたテキスト情報と前記テキスト情報記憶手段に記憶された過去のテキスト情報とで一致する文字列部分を検出し、
前記言語処理装置に備えられた重要語抽出手段が、前記一致文字列部分検出手段により検出された文字列部分から重要語を抽出する、
ことを特徴とする言語処理方法。
言語処理装置により行われる言語処理方法において、
前記言語処理装置に備えられたテキスト情報取得手段が、ネットワーク上においてテキスト情報を用いて２人以上により行われる対話で現在に発せられるテキスト情報を取得し、
前記言語処理装置に備えられたテキスト情報記憶手段が、前記テキスト情報取得手段により取得された前記対話で過去に発せられたテキスト情報を記憶し、
前記言語処理装置に備えられた一致文字列部分検出手段が、前記テキスト情報取得手段により現在に取得されたテキスト情報と前記テキスト情報記憶手段に記憶された過去のテキスト情報とで一致する文字列部分を検出し、
前記言語処理装置に備えられた重要語抽出手段が、前記一致文字列部分検出手段により検出された文字列部分から重要語を抽出する、
ことを特徴とする言語処理方法。