JP3956730B2 - 言語処理装置 - Google Patents

言語処理装置 Download PDF

Info

Publication number
JP3956730B2
JP3956730B2 JP2002071372A JP2002071372A JP3956730B2 JP 3956730 B2 JP3956730 B2 JP 3956730B2 JP 2002071372 A JP2002071372 A JP 2002071372A JP 2002071372 A JP2002071372 A JP 2002071372A JP 3956730 B2 JP3956730 B2 JP 3956730B2
Authority
JP
Japan
Prior art keywords
text information
word
language processing
character string
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002071372A
Other languages
English (en)
Other versions
JP2003271596A (ja
Inventor
智子 大熊
和貴 平田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2002071372A priority Critical patent/JP3956730B2/ja
Publication of JP2003271596A publication Critical patent/JP2003271596A/ja
Application granted granted Critical
Publication of JP3956730B2 publication Critical patent/JP3956730B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、テキスト情報から重要語を抽出する言語処理装置に関し、特に、例えば認識誤りやあいまい性を含む対話データなどからでも、適切な単語を重要語として抽出する言語処理装置に関する。
【0002】
【従来の技術】
例えば、対話データからその内容や話題を示すような重要語を抽出するために用いられてきた従来の方法では、入力された対話データから、単語辞書によるキーワードスポッティング若しくは形態素解析手段によって単語を抽出することが行われる。
【0003】
特開平11−3348号公報に記載の「電子対話用広告装置」では、あらかじめ単語辞書(広告辞書)を用意しておき、対話データ中に辞書に登録されている単語が現れると、その語を重要語として、その語に関連する情報(広告情報)を表示することが行われる。
特開平6−236410号公報に記載の「自動情報提供方法」では、単なる単語辞書ではなく、単語(話題)とその語が属する分野を記録したデータベースを用いて、対話がどの分野に属しているかを判定することや、属する分野が変換したことを検知することが行われる。
【0004】
特開平8−137874号公報に記載の「対話処理装置」では、話題転換の有無の検出を行うために、入力された対話データに対して、同義語辞書と単語辞書と対比語辞書を備えた形態素解析装置によって、単語リストを作成することが行われる。
特開平10−69482号公報に記載の「話題処理装置」では、対話データ(発言オブジェクト)に対して形態素解析処理を行って、特定の種類の単語をキーワードとして抽出することが行われる。
【0005】
【発明が解決しようとする課題】
しかしながら、上記した従来の重要語抽出の方法ではいずれも、対話データから単語辞書によるキーワードスポッティングや形態素解析を用いて単語を抽出した上で、単語のみを対象として記録装置に保持して、頻度を計数することや、空間ベクトル上で単語間の距離を計測することなどが行われる。このような従来の方法では、最初の単語抽出に一度失敗してしまうと、二度と正しい解を得ることができないといった問題がある。例えば、対話データがノイズつまり認識誤り文字や、あいまい性を含んでいる場合には、単語抽出に失敗する可能性は極めて高い。
【0006】
具体例として、「このちほうのおおきなだいごみはさかなです。」というデータがあるときに、「だい」という部分が誤りであるか、或いは「大ごみ」と「醍醐味」とのあいまい性を含んでいる場合には、対話の正しい認識結果が{この(連体詞)/地方(名詞-一般)/の(助詞-連体化)大きな(連体詞)/だい(誤り)/ゴミ(名詞-一般)/は(係助詞)/魚(名詞-一般)/です(助動詞)}であっても、この文字列が{この(連体詞)/地方(名詞-一般)/の(助詞-連体化)大きな(連体詞)/醍醐味(名詞)/は(係助詞)/魚(名詞-一般)/です(助動詞)}という漢字かな混じりで表記された単語リストへ変換された後では、本来得たかった単語である「ゴミ」を抽出することができない上に、「醍醐味」という不要な単語をキーワードとして抽出してしまう可能性がある。
【0007】
本発明は、このような従来の事情に鑑みなされたもので、例えばテキスト情報に誤りやあいまい性が含まれていても、適切な単語を重要語として抽出することができる言語処理装置などを提供することを目的とする。
更に具体的には、本発明では、例えば、音声認識装置などにより得られた対話データに誤りである文字列若しくはあいまい性のある文字列が含まれているような場合においても、これらの誤りやあいまい性をそのまま保持しておき、前後の対話などに応じて誤りやあいまい性を解消することにより、対話などの内容を表すための重要語を適切に抽出することを実現する。
【0008】
【課題を解決するための手段】
上記目的を達成するため、本発明に係る言語処理装置では、テキスト情報記憶手段がテキスト情報を記憶し、テキスト情報取得手段がテキスト情報を取得し、一致文字列部分検出手段がテキスト情報取得手段により取得されたテキスト情報とテキスト情報記憶手段に記憶されたテキスト情報とで一致する文字列部分を検出し、重要語抽出手段が一致文字列部分検出手段により検出された文字列部分から重要語を抽出する。
【0009】
従って、記憶されたテキスト情報と取得されたテキスト情報とで一致する文字列部分から重要語が抽出されるため、例えば記憶されたテキスト情報或いは取得されたテキスト情報に誤りやあいまい性が含まれるような場合においても、適切な重要語を抽出することができる。つまり、記憶されたテキスト情報と取得されたテキスト情報とに全く同一の誤りなどが含まれる場合を除いては、検出される一致する文字列部分に誤りなどが含まれないため、誤りなどを含んだ単語を重要語として抽出してしまう割合を従来と比べて低めることができ、これにより、適切な重要語を抽出することを実現することができる。
【0010】
なお、図3には、本発明に係る言語処理装置の概略的な構成例として、テキスト情報記憶手段の機能を有するテキスト情報記憶部31と、テキスト情報取得手段の機能を有するテキスト情報取得部32と、一致文字列部分検出手段の機能を有する一致文字列部分検出部33と、重要語抽出手段の機能を有する重要語抽出部34とを示してあり、また、テキスト情報記憶部31から一致文字列部分検出部33へ供給されるテキスト情報41を示してある。
【0011】
ここで、記憶されるテキスト情報や取得されるテキスト情報としては、種々な情報が用いられてもよく、例えば文章を含んだ情報が用いられる。
また、一致する文字列部分を検出するために用いられる記憶されたテキスト情報の数や取得されたテキスト情報の数としては、例えば1つずつといった態様が用いられるが、他の態様として、いずれか或いは両方が複数であってもよく、この場合には、3つ以上の全てのテキスト情報で一致する文字列部分を検出する。
【0012】
また、一致する文字列部分を検出するために用いる記憶されたテキスト情報と取得されたテキスト情報としては、好ましい態様として、例えば話題の内容は同一又は類似であるが異なる文章を含むようなテキスト情報が用いられる。具体的には、例えば、対話や講演会などにおける同一又は類似の話題に関する過去の発言のテキスト情報と現在の発言のテキスト情報や、また、美術館内の同一の展示場などのように同一の場所における複数の人の意見やアンケートのテキスト情報など、種々なテキスト情報を用いることができる。
【0013】
また、テキスト情報記憶手段としては、例えばメモリを用いて構成することができる。
また、テキスト情報取得手段によりテキスト情報を取得する仕方としては、必ずしもテキスト情報の形式で取得する仕方ばかりでなく、例えば音声情報の形式をテキスト情報の形式へ変換して取得する仕方など、種々な仕方が用いられてもよい。
【0014】
また、一致文字列部分検出手段により検出する文字列部分としては、例えば記憶されたテキスト情報と取得されたテキスト情報とに含まれる共通な文字列の部分が検出される。また、必ずしも2文字以上から成る文字列ばかりでなく、例えば1文字を文字列として検出するような態様が用いられてもよい。また、検出する文字列の数としては、特に限定はなく、種々な数が用いられてもよい。
また、文字列を構成する文字としては、必ずしもひらがなやカタカナやローマ字などばかりでなく、例えば記号などの種々なものが含まれてもよい。
【0015】
また、一致文字列部分検出手段により文字列部分を検出する仕方としては、種々な仕方が用いられてもよく、好ましい態様として、例えば、テキスト情報を単語に区切る前の表音文字から成る意味を持たせていない文字の並びとして見て、前方から後方へ順に或いは後方から前方へ順に、一致する文字の並び部分を一致する文字列部分として検出するような仕方を用いることができる。
【0016】
また、重要語抽出手段により抽出する重要語としては、種々な語であってもよい。
また、重要語抽出手段により重要語を抽出する仕方としては、種々な仕方が用いられてもよく、例えば、検出された一致する文字列部分の中で意味を持った単語を検出して当該単語を重要語として抽出する。
また、抽出される重要語については、例えば、メモリなどの記憶手段に記憶することや、画面などの表示手段に表示することなどが行われる。
【0017】
また、本発明に係る言語処理装置では、一構成例として、テキスト情報記憶手段に記憶されるテキスト情報は、音声情報を音声認識して得られたテキスト情報である。
また、本発明に係る言語処理装置では、一構成例として、テキスト情報取得手段では、音声情報入力手段が音声情報を入力し、音声認識手段が音声情報入力手段により入力された音声情報を音声認識してテキスト情報へ変換する。
【0018】
従って、例えば人が発する音声情報に関して、重要語を抽出することができる。一般に、音声情報を音声認識して得られるテキスト情報には認識誤りなどが生じ得るため、本発明が特に有効となる。
ここで、音声情報としては、種々な情報が用いられてもよい。
また、音声認識の処理としては、例えば一般に知られている技術を用いることが可能である。
また、音声情報入力手段としては、例えばマイクを用いて構成することができる。
【0019】
また、本発明に係る言語処理装置では、好ましい態様例として、テキスト情報記憶手段に記憶されるテキスト情報とテキスト情報取得手段により取得されるテキスト情報とは互いに関連した内容を有する。
具体的には、例えば記憶されるテキスト情報と取得されるテキスト情報とで共通の単語を含むようなテキスト情報が用いられ、このような共通の単語を重要語として抽出することができる。
【0020】
また、本発明に係る言語処理装置では、一構成例として、テキスト情報取得手段の音声情報入力手段は2人以上により行われる対話で現在に発せられる音声情報を入力し、テキスト情報記憶手段に記憶されたテキスト情報は当該対話で過去に発せられた音声情報を音声認識して得られたテキスト情報である。
従って、例えば同一又は類似の話題について話している対話内容に関して、話者が発する言葉の情報から重要語を抽出することができる。
【0021】
また、本発明に係る言語処理装置では、一構成例として、テキスト情報記憶手段は記憶したテキスト情報を所定の期間となったことに応じて記憶内容から削除する。
従って、例えば対話の区切り目などの所定の期間毎に重要語を抽出することができる。
【0022】
ここで、所定の期間としては、種々な期間が用いられてもよく、例えば5分間や10分間などの予め定められた期間を用いることができる。好ましい態様の具体例として、10分間の対話において10分間を所定の期間として用いることができ、また、5分毎に話題の内容が切り替わる対話において5分間を所定の期間として用いることができ、また、会議での対話において当該会議が終了するまでの期間を所定の期間として用いることができ、また、美術館内の所定の絵画についての対話について当該絵画が展示されている期間を所定の期間として用いることができる。
【0023】
また、本発明に係る言語処理装置では、話題転換検出手段がテキスト情報取得手段の音声情報入力手段により入力される音声情報又はテキスト情報取得手段の音声認識手段により変換されるテキスト情報に基づいて対話における話題の転換を検出し、テキスト情報記憶手段は記憶したテキスト情報を話題転換検出手段により話題転換が検出されたことに応じて記憶内容から削除する。
従って、例えば対話における話題の転換が発生するまでの期間毎に重要語を抽出することができる。
【0024】
ここで、対話における話題の転換としては、例えば「ところで」や「話は変わるが」などのように話題の転換点を示す所定の語句を検出することや、例えば所定の時間以上の無音声時間(音声が発せられない時間)を話題の転換点とみなして検出することができる。
【0025】
また、本発明に係る言語処理装置では、一構成例として、テキスト情報取得手段はネットワーク上においてテキスト情報を用いて2人以上により行われる対話で現在に発せられるテキスト情報を取得し、テキスト情報記憶手段に記憶されたテキスト情報は当該対話で過去に発せられたテキスト情報である。
従って、例えばインターネット上のチャットなどで発せられるテキスト情報から重要語を抽出することができる。
【0026】
また、本発明に係る言語処理装置では、一構成例として、重要語抽出手段では、形態素解析手段が一致文字列部分検出手段により検出された文字列部分を形態素解析して品詞情報付きの単語リストを取得し、所定品詞単語抽出手段が形態素解析手段により取得された単語リストの中から所定の品詞の単語を重要語として抽出する。
【0027】
ここで、形態素解析の処理としては、例えば一般に知られている技術を用いることが可能である。
また、品詞情報付きの単語リストとしては、例えば検出された文字列部分を品詞の情報が付いた単語のリストへ変換したものが用いられる。
また、所定の品詞の単語の当該品詞としては、例えば名詞などの種々な品詞が用いられてもよい。具体的には、例えば名詞などの必要な品詞の単語を抽出する一方、例えば助詞などの不要な品詞の単語を抽出しないような態様を用いることができる。
【0028】
また、本発明に係る言語処理装置では、一構成例として、重要語抽出手段では、重要語候補単語記憶手段が重要語として抽出する候補となる単語を記憶し、一致単語抽出手段が一致文字列部分検出手段により検出された文字列部分の中から重要語候補単語記憶手段に記憶された単語と一致する単語を重要語として抽出する。
【0029】
ここで、重要語候補単語記憶手段に記憶される単語としては、種々な単語が用いられてもよい。当該記憶される単語は、重要語を抽出するためのキーワードとして用いられ、つまり、検出された文字列部分の中に当該キーワードと一致する単語がある場合には、当該単語が重要語として抽出される。
また、重要語候補単語記憶手段に記憶される単語の数としては、種々な数が用いられてもよい。
また、重要語候補単語記憶手段としては、例えばメモリを用いて構成することができる。
【0030】
また、本発明に係る言語処理装置では、重要語抽出手段は一致文字列部分検出手段により検出された文字列部分から所定の条件を満たす語を除いて重要語を抽出する。
ここで、所定の条件としては、種々な条件が用いられてもよい。具体例として、1文字の語という条件が用いられる場合には、1文字の語を除いて重要語が抽出され、つまり、2文字以上の重要語が抽出される。
【0031】
また、本発明に係る言語処理装置では、重要度付与手段が重要語抽出手段により抽出される重要語に対して重要度を付与する。
ここで、重要語の重要度としては、例えば、重要である方が値が大きくなる数値などを用いることができる。また、重要語の重要度は、例えば複数の重要語が抽出されたような場合に、これら複数の重要語を順序付けるためや、これら複数の重要語から一部を選択するためなどに用いることができる。
【0032】
また、本発明に係る言語処理装置では、一構成例として、重要度付与手段では、重要度出現頻度演算手段が重要語抽出手段により抽出される重要語の出現頻度を演算し、重要語出現頻度情報記憶手段が重要語抽出手段により抽出された重要語と当該重要語の出現頻度の情報とを対応付けて記憶し、重要語重要度演算手段が重要語の出現頻度に基づいて当該重要語の重要度を演算する。
【0033】
ここで、重要語出現頻度情報記憶手段としては、例えばメモリを用いて構成することができる。
また、重要語の出現頻度としては、例えば同一の重要語が抽出された回数などを用いることができる。また、例えば重要語の重要度が当該重要語の出現頻度に比例するような態様を用いることができる。
【0034】
また、本発明に係る言語処理装置では、一構成例として、単語間関連度情報記憶手段が単語間の関連度の情報を記憶し、重要語関連語取得手段が単語間関連度情報記憶手段の記憶内容に基づいて重要語抽出手段により抽出された重要語に関連する他の単語を取得する。なお、取得される当該他の単語は、例えば、対話を行っている者たちに対して次の話題を考えるための重要語を提供する場合などにおいて、抽出された重要語から推測される他の重要語として用いられる。
【0035】
ここで、単語間関連度情報記憶手段としては、例えばメモリを用いて構成することができる。
また、単語間の関連度の情報としては、例えば関連のある複数の単語の情報及びこれらの関連度の情報などが用いられる。
また、重要語関連語取得手段により取得する単語としては、種々な単語が用いられてもよく、例えば抽出された複数の重要語に最も関連する1つの単語を取得することや、また、例えば抽出された重要語に関連する全ての単語を取得することなどができる。
【0036】
また、以上に示したような本発明に係る技術思想は、例えば方法や、プログラムや、このようなプログラムを記憶した記憶媒体などに適用することも可能である。
例えば、本発明に係る言語処理方法では、テキスト情報を取得し、取得したテキスト情報と記憶手段に記憶されたテキスト情報とで一致する文字列部分を検出し、検出した文字列部分から重要語を抽出する。
ここで、記憶手段としては、例えばメモリを用いて構成される。
【0037】
また、本発明に係るプログラムでは、テキスト情報を取得する機能と、取得したテキスト情報とメモリに記憶されたテキスト情報とで一致する文字列部分を検出する機能と、検出した文字列部分から重要語を抽出する機能と、をコンピュータにより実現する。
ここで、プログラムとしては、種々なプログラムが用いられてもよい。
【0038】
また、本発明に係る記憶媒体では、コンピュータに実行させるプログラムを当該コンピュータの入力手段により読み取り可能に記憶しており、当該プログラムは、テキスト情報を取得する処理と、取得したテキスト情報とメモリに記憶されたテキスト情報とで一致する文字列部分を検出する処理と、検出した文字列部分から重要語を抽出する処理を当該コンピュータに実行させる。
ここで、記憶媒体としては、例えばフロッピー(登録商標)ディスクや、CD(Compact Disk)−ROM(Read Only Memory)などの種々なものが用いられてもよい。
【0039】
【発明の実施の形態】
本発明に係る一実施例を図面を参照して説明する。
本例では、対話データから重要語を抽出する対話処理装置に本発明を適用した場合を示す。
図1には、本例の対話処理装置の構成例を示してある。
本例の対話処理装置には、マイクデバイス11とディクテーション処理部12を有する対話入力部1と、対話記録装置13と入力データ格納部14を有する対話記録部2と、文字列比較部15を有する対話比較部3と、単語辞書部16と形態素解析部17と重要語単語抽出部18を有する重要語抽出部4とが備えられている。
【0040】
対話入力部1は、対話を認識して音声データからテキストデータへ変換する。
対話記録部2は、対話比較部3により比較を終えたテキストデータを対話記録装置13に格納する。
対話比較部3は、過去の対話におけるテキストデータと現在に入力されたテキストデータとを比較し、一致した文字列を出力する。
重要語抽出部4は、当該一致した文字列に対して形態素解析を行って当該文字列を品詞情報付きの単語リストへ変換し、当該単語リストから特定の品詞の単語を重要語として出力する。
【0041】
以下で、本例の対話処理装置により行われる動作の一例を示す。本例では、例えば誤り文字列やあいまい性を含むような音声データから重要語を抽出する。
対話入力部1では、対話における音声をマイクデバイス11から入力し、マイクデバイス11から入力された音声データをディクテーション処理部12によりひらがなや、カタカナや、ローマ字などの表音記号によって表されるテキストデータへ変換して対話比較部3へ出力する。
【0042】
対話比較部3では、対話入力部1から受け取ったテキストデータを文字列比較部15により過去の対話記録データ21と比較して、一致する部分の文字列を重要語抽出部4へ出力する。ここで、過去の対話記録データ21は、対話における過去の音声データをテキストデータとしたものであり、対話記録部2から供給される。また、文字列比較部15は、対話入力部1から受け取ったテキストデータを対話記録部2へ出力する。
【0043】
対話記録部2では、対話入力部1から受け取って対話比較部3による前記比較処理が終了したテキストデータを入力データ格納部34により対話記録装置13に保持してある対話記録データに追加する形で記録する。具体例として、入力されるテキストデータが「このちほうのおおきなだいごみはさかなです」という文のテキストデータであり、追加前の対話記録データが「ごみのふほうとうきがこのちほうでもしんこくです」という文のテキストデータであった場合には、追加後の対話記録データは「ごみのふほうとうきがこのちほうでもしんこくです/このちほうのおおきなだいごみはさかなです」という文のテキストデータとなる。
【0044】
なお、対話記録装置13に記録された対話データを、例えば一定の期間保持した後に、削除するような態様を用いることもできる。また、例えば特開平8−137874号公報などに記載された既存の技術を用いて話題転換を検出し、話題転換が行われると同時に、対話記録装置13に記録された対話データを削除するような態様を用いることもできる。
【0045】
重要語抽出部4では、まず、形態素解析部17が、品詞情報などを記述した単語辞書を格納した単語辞書部16の辞書内容を参照して、対話比較部3から入力された文字列に対して形態素解析を行うことにより、当該文字列について単語毎に区切られて各単語に品詞情報が付与された単語リストを生成して重要語単語抽出部18へ出力する。次に、重要語単語抽出部18が、形態素解析部17から入力された単語リストから特定の品詞の単語や特定の語を抽出し、これらを重要語22として出力する。
【0046】
次に、図2を参照して、文字列比較部15により、対話入力部1から入力されるテキストデータと対話記録部2に記録された対話データとを比較して一致する文字列を出力する処理の手順の一例を示す。
まず、対話入力部1から入力されるテキストデータをString_currentという変数に読み込む(ステップS1)。本例では、入力されるテキストデータが「このちほうのおおきなだいごみはさかなです」という文のテキストデータであると想定する。
【0047】
次に、対話記録装置13から過去の対話におけるテキストデータ(過去の対話データ)を入力してString_logに読み込む(ステップS2)。本例では、入力される対話データが「ごみのふほうとうきがこのちほうでもしんこくです」という文のテキストデータであると想定する。
次に、上記したString_currentをString_orgという変数にコピーする(ステップS3)。
【0048】
ここで、以降の処理(ステップS5〜ステップS10の処理)については、ループ1の処理として、String_orgの文字列の長さが0になるまで処理を繰り返す(ステップS4)。
また、以降の処理(ステップS7、ステップS8、ステップS10の処理)については、ループ2の処理として、String_currentの文字列の長さが0になるまで処理を繰り返す(ステップS5)。
【0049】
ループ1の処理の中のループ2の処理では、まず、String_currentとString_logとを比較して、String_currentの全体がString_logの一部と一致するか否かを判定する(ステップS6)。一致しない場合には、String_currentの最後尾の1文字を削除する(ステップS10)。
【0050】
本例では、まず、「このちほうのおおきなだいごみはさかなです」という文字の列と「ごみのふほうとうきがこのちほうでもしんこくです」という文字の列とが比較される。この段階では、両者の間には上記のような部分的な一致の関係がないため、String_currentの最後尾の一文字が削除されて、String_currentは「このちほうのおおきなだいごみはさかなで」という文字の列になる。そして、このような1文字の削除処理を繰り返した結果、本例では、String_currentは「このちほう」という文字の列となり、この段階で、String_logの一部と一致する。
【0051】
このように、String_currentの文字列がString_logと部分的に一致すると(ステップS6)、当該String_currentの文字列が重要語抽出部4へ出力される(ステップS7)。
次に、String_currentと一致した箇所の文字列部分をString_orgから削除し、当該削除後のString_orgの文字列をString_currentにコピーする(ステップS8)。本例では、「このちほう」という文字列部分がString_orgから削除され、この結果、当該削除後のStr ing_orgは「のおおきなだいごみはさかなです」という文字の列になる。
【0052】
上記のようなループ2の処理を繰り返して行った結果、String_currentの長さが0になると、当該ループ2の処理をいったん終了する。
そして、ループ1の処理として、String_orgの先頭の一文字を削除して(ステップS9)、その後、String_orgをString_currentにコピーして、上記したループ2の処理を再び行う。本例では、1回目のループ2の処理では、String_orgは「のおおきなだいごみはさかなです」になる。
【0053】
上記のようなループ2の処理を含むループ1の処理を繰り返して行った結果、String_orgの長さが0になると、処理を終了する。本例では、このような文字列比較部15による処理により、「このちほう」、「の」、「き」、「ごみ」、「です」という5つの文字列が検出されて重要語抽出部4へ出力される。
【0054】
次に、重要語抽出部4により、重要語を抽出する処理の手順の一例を示す。
まず、形態素解析部17が、単語辞書部16の単語辞書を参照して、対話比較部3から入力された文字列を品詞情報付きの単語リストへ変換する。本例では、変換対象となる文字列として、「このちほう」、「の」、「き」、「ごみ」、「です」という5つの文字列が入力されたと想定する。この場合、本例では、これらの文字列を変換した結果、{この(連体詞)/ ちほう(名詞-一般)}、{の(連体助詞)}、{き(名詞-一般)}、{ごみ(名詞-一般)}、{です(助動詞)}という情報が品詞情報付きの単語リストとして得られる。
【0055】
次に、重要語単語抽出部18が、形態素解析部17により得られた単語リストから、特定の品詞の単語を抽出する。本例では、名詞を抽出対象とする。この場合、本例では、「ちほう」、「き」、「ごみ」という3つの語が重要語22として抽出される。
【0056】
なお、例えば、形態素解析を行う前に、前記した「の」のような長さが1である文字列については削除するなどといったフィルタリング処理を行う構成とすることも可能である。このようなフィルタリング処理を行う構成では、前記した4つの文字列から、1文字の文字列に該当する「の」と「き」が削除されることとなるため、重要語としては「ちほう」と「ごみ」という2つの語が抽出される。
【0057】
また、例えば、特開平8−137874号公報などに記載された既存の技術を用いて、抽出された重要語に対してその出現頻度に基づいて重要度を付与し、付与した重要度に応じて複数の重要語を任意の数に絞り込むような処理を行う構成とすることも可能である。
また、例えば、単語と単語との間の関連度を記述した辞書に問い合わせて、抽出された重要語に関連の高い語を選定することにより、新たな重要語を予測するような処理を行う構成とすることも可能である。
【0058】
以上のように、本例の対話処理装置では、対話入力部1が例えば2人以上により行われる対話から音声データを受け取って当該音声データをテキストデータへ変換し、対話比較部3が入力されたテキストデータ(対話データ)と記録しておいた過去のテキストデータ(対話データ)とを比較して一致した部分の文字列を出力し、対話記録部2が入力された対話データを記憶し、重要語抽出部4が対話比較部3から受け取った文字列から特定の単語を抽出することが行われる。
【0059】
また、本例の対話処理装置では、例えば対話記録部2が入力された対話データを或る一定の期間のみ記憶することや、例えば対話記録部2が入力された対話データを話題転換が検出されるまで記憶することが行われる。
【0060】
また、本例の対話処理装置では、例えば重要語抽出部4が対話比較部3から受け取った文字列を形態素解析部17により品詞情報付きの単語リストへ変換して重要語単語抽出部18により特定の品詞の単語を抽出することや、例えば重要語抽出部4が単語辞書保持装置によりキーワードとなる単語を記憶して重要語単語抽出部18により対話比較部3から受け取った文字列の中から単語辞書保持装置に記憶されたキーワードと一致する単語を抽出することが行われる。
【0061】
また、本例の対話処理装置では、例えば重要語抽出部4がフィルタリング機能により対話比較部3から受け取った文字列から不要な文字列を削除して重要語を抽出することが行われる。具体例としては、予め設定された条件に合う文字列を重要語抽出の対象から削除する構成とし、例えば、1文字から成る文字列や、不明な記号を含む文字列や、「」(かぎかっこ)やメールアドレスで用いられる@といった記号の文字列などを重要語抽出の対象から削除するように設定する。
【0062】
また、本例の対話処理装置では、例えば重要語抽出部4が重要度付与機能により単語に対して重要度を付与することが行われる。
また、本例の対話処理装置では、重要度付与の処理として、例えば頻度計算機能が抽出された単語の頻度を計算し、頻度情報保持装置が単語と頻度の情報を保持し、重要度計算機能が頻度情報に基づいて単語の重要度を計算することが行われる。
【0063】
また、本例の対話処理装置では、例えば重要語抽出部4が、関連語辞書保持装置により単語間の関連度を記述してある関連語辞書を保持して、重要語予測機能により単語間の関連度に基づいて新たな語を予測して重要語として出力することが行われる。
【0064】
また、本例の対話処置装置では、対話における音声データをテキストデータへ変換して重要語を抽出する構成例を示したが、他の構成例として、チャットなどにおけるテキストデータを入力して当該テキストデータから重要語を抽出するようなことも可能であり、この場合、例えば対話入力部1は、ネットワーク上において2人以上により文字列によって対話を行うことができる文字入力端末を備える。文字入力端末としては、例えばキーボードを備えるパーソナルコンピュータなど、種々なものを用いて構成することができる。
【0065】
以上のような構成により、本例の対話処理装置では、例えば認識誤りやあいまい性を含む音声認識データなどからであっても、このような認識誤りなどの影響を低減させて、適切な重要語を抽出することが可能であり、抽出される重要語の確からしさを高めることができる。
【0066】
なお、本例では、対話記録部2の機能によりテキスト情報記憶手段が構成されており、対話入力部1の機能によりテキスト情報取得手段が構成されており、対話比較部3の機能により一致文字列部分検出手段が構成されており、重要語抽出部4の機能により重要語抽出手段が構成されている。
また、本例では、マイクデバイス11の機能により音声情報入力手段が構成されており、ディクテーション処理部12の機能により音声認識手段が構成されている。
【0067】
また、本例では、形態素解析部17の機能により形態素解析手段が構成されており、重要語単語抽出部18の機能により所定品詞単語抽出手段が構成されている。
また、本例では、例えば、重要語として抽出する候補となる単語を記憶する重要語候補単語記憶手段の機能及び当該記憶された単語と一致する単語を文字列部分の中から重要語として抽出する一致単語抽出手段の機能を重要語抽出部4に備えることもできる。
【0068】
また、本例では、例えば、話題の転換を検出する話題転換検出手段の機能を対話記録部2などに備えることもできる。
また、本例では、例えば、重要度付与手段の機能を重要語抽出部4などに備えることもでき、当該機能として例えば重要語出現頻度演算手段の機能と重要語出現頻度情報記憶手段の機能と重要語重要度演算手段の機能を重要語抽出部4などに備えることもできる。
また、本例では、例えば、単語間関連度情報記憶手段の機能及び単語間の関連度の情報に基づいて抽出された重要語に関連する他の単語を取得する重要語関連語取得手段の機能を重要語抽出部4などに備えることもできる。
【0069】
ここで、本発明に係る言語処理装置などの構成としては、必ずしも以上に示したものに限られず、種々な構成が用いられてもよい。
また、本発明の適用分野としては、必ずしも以上に示したものに限られず、本発明は、種々な分野に適用することが可能なものである。
【0070】
また、本発明に係る言語処理装置などにおいて行われる各種の処理としては、例えばプロセッサやメモリ等を備えたハードウエア資源においてプロセッサがROM(Read Only Memory)に格納された制御プログラムを実行することにより制御される構成が用いられてもよく、また、例えば当該処理を実行するための各機能手段が独立したハードウエア回路として構成されてもよい。
また、本発明は上記の制御プログラムを格納したフロッピー(登録商標)ディスクやCD(Compact Disc)−ROM等のコンピュータにより読み取り可能な記録媒体や当該プログラム(自体)として把握することもでき、当該制御プログラムを記録媒体からコンピュータに入力してプロセッサに実行させることにより、本発明に係る処理を遂行させることができる。
【0071】
【発明の効果】
以上説明したように、本発明に係る言語処理装置によると、例えば過去のテキスト情報を記憶し、例えば現在のテキスト情報を取得し、取得したテキスト情報と記憶されたテキスト情報とで一致する文字列部分を検出し、検出した文字列部分から重要語を抽出するようにしたため、例えば記憶されるテキスト情報や取得されるテキスト情報に誤りやあいまい性が含まれるような場合においても、適切な重要語を抽出することができる。
【図面の簡単な説明】
【図1】 本発明の一実施例に係る対話処理装置の構成例を示す図である。
【図2】 文字列比較部により行われる処理の手順の一例を示す図である。
【図3】 本発明に係る言語処理装置の概略的な構成例を示す図である。
【符号の説明】
1・・対話入力部、 2・・対話記録部、 3・・対話比較部、
4・・重要語抽出部、 11・・マイクデバイス、
12・・ディクテーション処理部、 13・・対話記録装置、
14・・入力データ格納部、 15・・文字列比較部、 16・・単語辞書部、
17・・形態素解析部、 18・・重要語単語抽出部、
21・・対話記録データ、 22・・重要語、 31・・テキスト情報記憶部、
32・・テキスト情報取得部、 33・・一致文字列部分検出部、
34・・重要語抽出部、 41・・テキスト情報、

Claims (13)

  1. 2人以上により行われる対話で現在に発せられる音声情報を入力する音声情報入力手段と、前記音声情報入力手段により入力された音声情報を音声認識してテキスト情報へ変換する音声認識手段を用いて構成され、当該テキスト情報を取得するテキスト情報取得手段と、
    前記対話で過去に発せられた音声情報から前記テキスト情報取得手段により取得されたテキスト情報を記憶するテキスト情報記憶手段と、
    前記テキスト情報取得手段により現在に取得されたテキスト情報と前記テキスト情報記憶手段に記憶された過去のテキスト情報とで一致する文字列部分を検出する一致文字列部分検出手段と、
    前記一致文字列部分検出手段により検出された文字列部分から重要語を抽出する重要語抽出手段と、
    を備えたことを特徴とする言語処理装置。
  2. ネットワーク上においてテキスト情報を用いて2人以上により行われる対話で現在に発せられるテキスト情報を取得するテキスト情報取得手段と、
    前記テキスト情報取得手段により取得された前記対話で過去に発せられたテキスト情報を記憶するテキスト情報記憶手段と、
    前記テキスト情報取得手段により現在に取得されたテキスト情報と前記テキスト情報記憶手段に記憶された過去のテキスト情報とで一致する文字列部分を検出する一致文字列部分検出手段と、
    前記一致文字列部分検出手段により検出された文字列部分から重要語を抽出する重要語抽出手段と、
    を備えたことを特徴とする言語処理装置。
  3. 請求項1又は請求項2に記載の言語処理装置において、
    前記テキスト情報記憶手段は、記憶したテキスト情報を所定の期間となったことに応じて記憶内容から削除する、
    ことを特徴とする言語処理装置。
  4. 請求項1に記載の言語処理装置において、
    前記テキスト情報取得手段の前記音声情報入力手段により入力される音声情報又は前記テキスト情報取得手段の前記音声認識手段により変換されるテキスト情報に基づいて前記対話における話題の転換を検出する話題転換検出手段を備え、
    前記テキスト情報記憶手段は、記憶したテキスト情報を前記話題転換検出手段により話題転換が検出されたことに応じて記憶内容から削除する、
    ことを特徴とする言語処理装置。
  5. 請求項2に記載の言語処理装置において、
    前記テキスト情報取得手段により取得されるテキスト情報に基づいて前記対話における話題の転換を検出する話題転換検出手段を備え、
    前記テキスト情報記憶手段は、記憶したテキスト情報を前記話題転換検出手段により話題転換が検出されたことに応じて記憶内容から削除する、
    ことを特徴とする言語処理装置。
  6. 請求項1乃至請求項5のいずれか1項に記載の言語処理装置において、
    前記重要語抽出手段は、前記一致文字列部分検出手段により検出された文字列部分を形態素解析して品詞情報付きの単語リストを取得する形態素解析手段と、前記形態素解析手段により取得された単語リストの中から所定の品詞の単語を重要語として抽出する所定品詞単語抽出手段とを用いて構成された、
    ことを特徴とする言語処理装置。
  7. 請求項1乃至請求項5のいずれか1項に記載の言語処理装置において、
    前記重要語抽出手段は、重要語として抽出する候補となる単語を記憶する重要語候補単語記憶手段と、前記一致文字列部分検出手段により検出された文字列部分の中から前記重要語候補単語記憶手段に記憶された単語と一致する単語を重要語として抽出する一致単語抽出手段とを用いて構成された、
    ことを特徴とする言語処理装置。
  8. 請求項1乃至請求項7のいずれか1項に記載の言語処理装置において、
    前記重要語抽出手段は、前記一致文字列部分検出手段により検出された文字列部分から所定の条件を満たす語を除いて重要語を抽出する、
    ことを特徴とする言語処理装置。
  9. 請求項1乃至請求項8のいずれか1項に記載の言語処理装置において、
    前記重要語抽出手段により抽出される重要語に対して重要度を付与する重要度付与手段を備えた、
    ことを特徴とする言語処理装置。
  10. 請求項9に記載の言語処理装置において、
    前記重要度付与手段は、前記重要語抽出手段により抽出される重要語の出現頻度を演算する重要語出現頻度演算手段と、前記重要語抽出手段により抽出された重要語と当該重要語の出現頻度の情報とを対応付けて記憶する重要語出現頻度情報記憶手段と、重要語の出現頻度に基づいて当該重要語の重要度を演算する重要語重要度演算手段とを用いて構成された、
    ことを特徴する言語処理装置。
  11. 請求項1乃至請求項10のいずれか1項に記載の言語処理装置において、
    単語間の関連度の情報を記憶する単語間関連度情報記憶手段と、
    前記単語間関連度情報記憶手段の記憶内容に基づいて前記重要語抽出手段により抽出された重要語に関連する他の単語を取得する重要語関連語取得手段と、
    を備えたことを特徴とする言語処理装置。
  12. 言語処理装置により行われる言語処理方法において、
    前記言語処理装置に備えられたテキスト情報取得手段が、当該テキスト情報取得手段を構成する音声情報入力手段により2人以上により行われる対話で現在に発せられる音声情報を入力し、当該テキスト情報取得手段を構成する音声認識手段により前記音声情報入力手段により入力された音声情報を音声認識してテキスト情報へ変換して、当該テキスト情報を取得し、
    前記言語処理装置に備えられたテキスト情報記憶手段が、前記対話で過去に発せられた音声情報から前記テキスト情報取得手段により取得されたテキスト情報を記憶し、
    前記言語処理装置に備えられた一致文字列部分検出手段が、前記テキスト情報取得手段により現在に取得されたテキスト情報と前記テキスト情報記憶手段に記憶された過去のテキスト情報とで一致する文字列部分を検出し、
    前記言語処理装置に備えられた重要語抽出手段が、前記一致文字列部分検出手段により検出された文字列部分から重要語を抽出する、
    ことを特徴とする言語処理方法。
  13. 言語処理装置により行われる言語処理方法において、
    前記言語処理装置に備えられたテキスト情報取得手段が、ネットワーク上においてテキスト情報を用いて2人以上により行われる対話で現在に発せられるテキスト情報を取得し、
    前記言語処理装置に備えられたテキスト情報記憶手段が、前記テキスト情報取得手段により取得された前記対話で過去に発せられたテキスト情報を記憶し、
    前記言語処理装置に備えられた一致文字列部分検出手段が、前記テキスト情報取得手段により現在に取得されたテキスト情報と前記テキスト情報記憶手段に記憶された過去のテキスト情報とで一致する文字列部分を検出し、
    前記言語処理装置に備えられた重要語抽出手段が、前記一致文字列部分検出手段により検出された文字列部分から重要語を抽出する、
    ことを特徴とする言語処理方法。
JP2002071372A 2002-03-15 2002-03-15 言語処理装置 Expired - Fee Related JP3956730B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002071372A JP3956730B2 (ja) 2002-03-15 2002-03-15 言語処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002071372A JP3956730B2 (ja) 2002-03-15 2002-03-15 言語処理装置

Publications (2)

Publication Number Publication Date
JP2003271596A JP2003271596A (ja) 2003-09-26
JP3956730B2 true JP3956730B2 (ja) 2007-08-08

Family

ID=29201667

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002071372A Expired - Fee Related JP3956730B2 (ja) 2002-03-15 2002-03-15 言語処理装置

Country Status (1)

Country Link
JP (1) JP3956730B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6646677B2 (ja) 2015-10-09 2020-02-14 株式会社日立製作所 音声信号処理方法および装置
JP6611091B2 (ja) * 2017-05-11 2019-11-27 株式会社村田製作所 情報処理システム、情報処理装置、コンピュータプログラム、及び辞書データベースの更新方法

Also Published As

Publication number Publication date
JP2003271596A (ja) 2003-09-26

Similar Documents

Publication Publication Date Title
US11037553B2 (en) Learning-type interactive device
US6910004B2 (en) Method and computer system for part-of-speech tagging of incomplete sentences
US7949530B2 (en) Conversation controller
US20140316764A1 (en) Clarifying natural language input using targeted questions
JP2008209717A (ja) 入力された音声を処理する装置、方法およびプログラム
JP5703491B2 (ja) 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置
JP5824829B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP5496863B2 (ja) 感情推定装置、その方法、プログラム及びその記録媒体
JP5867410B2 (ja) 対話テキスト解析装置、方法およびプログラム
JP5231698B2 (ja) 日本語の表意文字の読み方を予測する方法
JPWO2011033834A1 (ja) 音声翻訳システム、音声翻訳方法および記録媒体
Ablimit et al. A multilingual language processing tool for Uyghur, Kazak and Kirghiz
Dyriv et al. The user's psychological state identification based on Big Data analysis for person's electronic diary
JP5068225B2 (ja) 音声ファイルの検索システム、方法及びプログラム
KR20180022156A (ko) 대화 관리 장치 및 방법
JP3956730B2 (ja) 言語処理装置
JP4220151B2 (ja) 音声対話装置
US20210133394A1 (en) Experiential parser
JP4054035B2 (ja) データベース構築装置、データベース構築方法、データベース構築プログラムおよび記録媒体
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
JPH11338863A (ja) 未知名詞および表記ゆれカタカナ語自動収集・認定装置、ならびにそのための処理手順を記録した記録媒体
JP5202163B2 (ja) 語学学習を支援する装置および方法
Skadiņa et al. Filling the gaps in Latvian BLARK: Case of the Latvian IT Competence Centre
WO2020255234A1 (ja) 言語処理装置、言語処理方法及び言語処理プログラム
CN118140226A (zh) 演示评价装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040917

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061128

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070125

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070213

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070402

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070417

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070430

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110518

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110518

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120518

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130518

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130518

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140518

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees