JP2000276482A - 文書検索装置及び文書検索方法 - Google Patents

文書検索装置及び文書検索方法

Info

Publication number
JP2000276482A
JP2000276482A JP11081120A JP8112099A JP2000276482A JP 2000276482 A JP2000276482 A JP 2000276482A JP 11081120 A JP11081120 A JP 11081120A JP 8112099 A JP8112099 A JP 8112099A JP 2000276482 A JP2000276482 A JP 2000276482A
Authority
JP
Japan
Prior art keywords
word
document
search
unit
extraction result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11081120A
Other languages
English (en)
Inventor
Takao Fukushige
貴雄 福重
Hiroyuki Suzuki
浩之 鈴木
Naohiko Noguchi
直彦 野口
Kai Itou
快 伊藤
Mitsuhiro Sato
光弘 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP11081120A priority Critical patent/JP2000276482A/ja
Priority to US09/512,214 priority patent/US6622122B1/en
Priority to EP00104272A priority patent/EP1039395A3/en
Publication of JP2000276482A publication Critical patent/JP2000276482A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 文認識の精度によらずに有効な文書検索が行
なえ、必要となる言語データを収集するためのコストを
低くする音声による文書検索装置を提供する。 【解決手段】 本発明の文書検索装置は、音から文字パ
ターンを生成する音声入力部101と、尤度情報を格納
する言語モデル格納部102と、尤度情報に基づいて語
抽出結果を抽出する語抽出部103と、語抽出結果に基
づいて検索条件を生成する検索条件生成部106と、文
書を格納する文書格納部107と、検索条件に基づいて
文書を検索する文書検索部108と、を備える。これに
より、文認識の精度によらずに有効な文書検索が行な
え、必要となる言語データを収集するためのコストを低
くする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声などによる文
書検索装置及び文書検索方法に関する。特には、音声な
どによる文書検索において文認識の精度に影響されず有
効な文書検索が行える文書検索装置及び文書検索方法に
関する。
【0002】
【従来の技術】従来から、音声による文書検索装置及び
文書検索方法の代表的なものとして、音声認識と全文検
索を組み合わせた文書検索装置及び文書検索方法があ
る。
【0003】図43は、従来の音声による文書検索装置
を示す図である。図43において、従来の文書検索装置
は、ユーザの発話などの音声を電気信号に変換して入力
する音声入力部4301と、音声入力部4301により
電気信号に変換された音声を文として認識する文認識部
4302と、文認識部4302により認識された文に基
づいて文書を検索するための検索条件を生成する検索条
件生成部4303と、検索対象となる文書を格納した文
書格納部4304と、検索条件生成部4303により生
成された検索条件に基づいて文書格納部4304に格納
された文書を検索する文書検索部4305と、文書検索
部4305による文書検索の結果を提示する情報出力部
4306とを、備える。
【0004】図44は、上述した従来の文書検索装置に
おける文書検索の処理を示すフローチャートである。図
44において、まず、音声入力部4301は、ユーザの
発話などの音声を電気信号に変換する(ステップ440
1)。
【0005】次に、文認識部4302は、音声入力部4
301で音声から変換された電気信号を文字パターン信
号として捕らえ文として認識する(ステップ440
2)。
【0006】検索条件生成部4303は、文認識部43
02で認識された文に基づいて、文書を検索するための
検索条件を生成する(ステップ4403)。
【0007】文書検索部4305は、検索条件生成部4
303で生成された検索条件に基づいて、文書格納部4
304に格納されている対象文書を検索する(ステップ
4404)。
【0008】この文書検索部4305での検索結果は、
情報出力部4306により、ユーザなどの外部に提示す
る(ステップ4405)。
【0009】このように、従来の文書検索装置及び文書
検索方法によれば、音声を文として認識し、この認識し
た文から生成した検索条件に基づいて検索対象の文書を
検索することによって、音声によって文書を検索してい
た。
【0010】
【発明が解決しようとする課題】しかしながら、従来の
文書検索装置及び文書検索方法によれば、音声の認識に
おいて、一般的に、発話の不確実さ、音声入力装置の性
能、騒音や雑音の混入などの入力環境によって、音声か
ら変換された電気信号を文字として認識する際に、本来
の音声に含まれる語(文字)ではなくこれらの語に類似
する語が出現することがあった。
【0011】このため、従来の文書検索装置及び文書検
索方法による音声認識においては、入力された発話など
の音声から文を認識しようとするときに、本来の音声に
含まれる語以外の語(誤った語)がその文を構成する語
の候補として混入することがある。さらに、それら誤っ
た語の抽出尤度が、本来の音声に含まれている語(正し
い語)の抽出尤度よりも高くなることもあった。
【0012】図45は、従来の文書検索装置及び文書検
索方法による音声認識を示す図である。図45におい
て、「山陰へ旅行したいのですが」が発話(音声)とし
て音声入力部4301に入力され、音声入力部4301
が、この音声を音素列「sanninderyokoo
shitaiindesuga」によって表現されるよ
うな電気信号として変換した時、「三人」/「山陰」、
「で」、「旅行」、「した」、「医院」、「ですが」
が、文を構成する語の候補として認識される。このと
き、一般に、「山陰」は「三人」に比べて尤度が低く検
出されている(図45においては、尤度の高いものほど
上にくるように示されている)。
【0013】ここで、従来の音声による文書検索装置及
び文書検索方法においては、文認識の処理において、
「発話(音声)を一つの文として認識する」という基準
にしたがって、文書を構成する語の認識結果を一つに限
定してしまうため、実際に発話された語「山陰」が、た
とえ一定の尤度で含まれることが推定できるような場合
であっても、認識結果を一つに絞る仮定において上述の
ように棄却されてしまうという問題があった。
【0014】図45に示した例の場合では、実際に音声
に含まれている語「山陰」は、一般に語「三人」に比べ
て尤度が低いので、文認識の結果の文字列「三人で旅行
した医院ですが」に含まれないことになる。したがっ
て、検索条件生成部4303で生成される(ステップ4
403)検索条件に、「山陰」が含まれず「三人」や
「医院」などが含まれることになってしまう。このた
め、文書検索部4305による文書検索(ステップ44
04)において、音声によって検索したい文書とは異な
った文書が検索されてしまう。
【0015】このように、従来の文書検索装置及び文書
検索方法においては、文認識結果に実際に発話された語
が含まれない場合が生じるため、間違った検索条件が生
成され、有効な文書検索結果が得られないという問題が
あった。
【0016】また、従来の発話などの音声による文書検
索装置及び文書検索方法においては、文認識用の言語デ
ータを参照して文認識を行う場合に、自然言語の一般的
な文の認識を高精度で行うためには、通常使用される多
様な語彙や文形に関する一般的な言語データを大量に用
意する必要があり、必要な言語データの収集に膨大なコ
ストがかかるという問題もあった。
【0017】したがって、本発明の目的は、発話などの
音声による文書検索において、文認識の精度に影響され
ず、有効な文書検索が行なえるような文書検索装置及び
文書検索方法を提供することである。
【0018】また、本発明の他の目的は、発話などの音
声による文書検索において、必要となる言語データを収
集するためのコストが低くて済む文書検索装置及び文書
検索方法を提供することである。
【0019】
【課題を解決するための手段】上記課題を解決するため
に、本発明の第1の態様の文書検索装置は、音声などの
音に基づいて文書の検索を行なう文書検索装置であっ
て、音を電気信号に変換して文字パターンデータを生成
する音声入力手段と、音声入力手段で生成される文字パ
ターンデータから認識される語の尤度を決定する尤度情
報を格納する言語モデル格納手段と、言語モデル格納手
段に格納された尤度情報に基づいて、音声入力手段から
出力される文字パターンデータに含まれると推定される
語を語抽出結果として抽出する語抽出手段と、語抽出手
段で抽出される語抽出結果に基づいて、文書を検索する
ための検索条件を生成する検索条件生成手段と、検索対
象となる文書を格納する文書格納手段と、検索条件生成
手段によって生成される検索条件に基づいて、文書格納
手段に格納されている文書を検索する文書検索手段と、
を備えることを特徴とする。
【0020】また、上記課題を解決するために、本発明
の第1の態様の文書検索方法は、音声などの音に基づい
て文書の検索を行なう文書検索方法であって、音を電気
信号に変換して文字パターンデータを生成し、文字パタ
ーンデータから認識される語の尤度を決定する尤度情報
に基づいて、前記文字パターンデータに含まれると推定
される語を語抽出結果として抽出し、語抽出結果に基づ
いて、文書を検索するための検索条件を生成し、検索条
件に基づいて、文書を検索する、ことを特徴とする。
【0021】上述した本発明の第1の態様の文書検索装
置及び文書検索方法によれば、一定の尤度以上でユーザ
の発話に含まれると推定される語を抽出するので、本来
発話された語が、一定の尤度で含まれることが推定でき
るのなら、文認識を行なった場合、認識結果を一つに絞
る仮定において棄却されてしまうような場合でも、語認
識結果には、含まれることになる。したがって、発話な
どの音声による文書検索において、文認識の精度に影響
されず、有効な文書検索が行なえる。また、ユーザの発
話の発話中のすべての語を抽出する必要はなく、検索の
目的や検索対象となる文書集合に応じて、最小限の言語
モデルを構成すればよいので、言語データの収集コスト
も低くすることができる。
【0022】また、上述した文書検索装置において、文
書検索手段で生成される検索結果を出力する情報出力手
段を備えることもできる。
【0023】これにより、検索結果をオペレータに提示
することができ、また、該検索結果をオペレータの指示
にしたがって編集し、その編集結果をクライアント及び
オペレータに検索結果として提示することができるの
で、精度の高い文書検索を行うことができる。
【0024】また、上記課題を解決するための、本発明
の第2の態様の文書検索装置は、音声などの音に基づい
て文書の検索を行なう文書検索装置であって、第1の音
を電気信号に変換して第1の文字パターンデータを生成
する第1の音声入力手段と、第1の音声入力手段で生成
される第1の文字パターンデータから認識される語の尤
度を決定する尤度情報を格納する第1の言語モデル格納
手段と、第1の言語モデル格納手段に格納された尤度情
報に基づいて、第1の音声入力手段から出力される第1
の文字パターンデータに含まれると推定される語を第1
の語抽出結果として抽出する第1の語抽出手段と、第2
の音を電気信号に変換して第2の文字パターンデータを
生成する第2の音声入力手段と、第2の音声入力手段で
生成される第2の文字パターンデータから認識される語
の尤度を決定する尤度情報を格納する第2の言語モデル
格納手段と、第2の言語モデル格納手段に格納された尤
度情報に基づいて、第2の音声入力手段から出力される
第2の文字パターンデータに含まれると推定される語を
第2の語抽出結果として抽出する第2の語抽出手段と、
第1の語抽出手段で抽出される第1の語抽出結果と、第
2の語抽出手段で抽出される第2の語抽出結果とを比較
して新たな抽出語を生成する語抽出結果比較手段と、語
抽出結果比較手段によって生成される新たな語抽出結果
に基づいて、文書を検索するための検索条件を生成する
検索条件生成手段と、検索対象となる文書を格納する文
書格納手段と、検索条件生成手段によって生成される検
索条件に基づいて、文書格納手段に格納されている文書
を検索する文書検索手段と、を備えることを特徴とす
る。
【0025】また、上記課題を解決するために、本発明
の第2の態様の文書検索方法は、音声などの音に基づい
て文書の検索を行なう文書検索方法であって、第1の音
を電気信号に変換して第1の文字パターンデータを生成
し、第1の文字パターンデータから認識される語の尤度
を決定する尤度情報に基づいて、第1の文字パターンデ
ータに含まれると推定される語を第1の語抽出結果とし
て抽出し、第2の音を電気信号に変換して第2の文字パ
ターンデータを生成し、第2の文字パターンデータから
認識される語の尤度を決定する尤度情報に基づいて、第
2の文字パターンデータに含まれると推定される語を第
2の語抽出結果として抽出し、第1の語抽出結果と第2
の語抽出結果とを比較して新たな語抽出結果を生成し、
新たな語抽出結果に基づいて、文書を検索するための検
索条件を生成し、検索条件に基づいて、文書を検索す
る、ことを特徴とする。
【0026】このように、対応する2つの発話からの語
抽出結果を比較し、その結果を検索条件の生成に利用す
ることにより、対応する2つの発話で協調して、文書検
索を行なう場合に、より効果的な文書検索を行なうこと
が可能になる。
【0027】たとえば、語抽出結果の比較において、第
2の発話からの語抽出結果に含まれる語について、第1
の発話からの語抽出結果に含まれる語よりも比較結果に
おける尤度を高め、第1の発話からの語抽出結果と、第
2の発話からの語抽出結果の両方に含まれる語に関して
は、比較結果における尤度をさらに高め、第1の発話か
らの語抽出結果には含まれるが、第2の発話からの語抽
出結果には含まれないような語に関しては、比較結果に
おける尤度を低くするようにすることにより、第2の発
話が、第1の発話による文書検索を支援するために、第
1の発話中に含まれる重要な語を繰り返したり、足りな
い語を補完したりして、第1の発話を適切に言い直して
発話するような場面においては、第1の発話のみからの
語抽出結果に比べて、検索条件の生成に、より適切な語
抽出結果が使用されるので、より効果的な文書検索を行
なうことが可能になる。
【0028】さらに、上述した文書検索装置において、
文書検索手段で生成される検索結果を、第1の音の発生
源と第2の音の発生源のそれぞれに対して、異なる編集
によって出力する情報出力手段を備えることもできる。
【0029】これにより、検索結果を、第1の発話と第
2の発話に対して、異なる方法で編集して提示し、それ
ぞれのユーザに応じた形で結果を提示することができ
る。
【0030】特に、第1の発話による文書検索を第2の
発話で支援するような場合には、第2の発話のユーザに
対しては、すべての検索結果を提示し、第1の発話のユ
ーザに対しては、検索結果のうちから、第2の発話のユ
ーザが有効と判断したもののみを提示するようにするこ
とにより、第1の発話のユーザが、より有効な検索結果
を受けとることが可能になる。
【0031】また、上述した文書検索装置において、検
索条件生成手段は、語抽出結果比較手段によって生成さ
れる新たな語抽出結果、第1の語抽出手段によって抽出
される第1の語抽出結果、または第2の語抽出手段によ
って抽出される第2の語抽出結果に基づいて、文書を検
索するための検索条件を生成することもできる。
【0032】これにより、使用環境に応じて適切な語抽
出結果を用いることができるので、効率良く文書検索を
行うことができる。
【0033】また、上述した第1の態様の文書検索装置
において、語抽出手段によって抽出される語抽出結果に
対して、内部状態に応じて付加的な情報を生成し、当該
内部状態を更新する付加的情報管理手段を備え、検索条
件生成手段は、語抽出結果及び付加的情報管理手段によ
って生成された付加的な情報に基づいて、検索条件を生
成することもできる。
【0034】上述の付加的情報管理手段は、付加的な情
報に基づいて言語モデル格納手段に格納されている尤度
情報を更新することもできる。
【0035】また、上述した第2の態様の文書検索装置
において、語抽出結果比較手段によって生成される新た
な語抽出結果に対して、内部状態に応じて付加的な情報
を生成し、当該内部状態を更新する付加的情報管理手段
を備え、検索条件生成手段は、新たな語抽出結果及び前
記付加的情報管理手段によって生成された付加的な情報
に基づいて、検索条件を生成することもできる。
【0036】上述の付加的情報管理手段は、付加的な情
報に基づいて言語モデル格納手段に格納されている尤度
情報を更新することもできる。
【0037】ここで、特定の語が発話中に現れる尤度
は、その発話のおかれた文脈により変化するので、一連
の発話により形成される文脈的な制約を、語抽出におい
て参照する情報に反映させることにより、語抽出の精度
を高めることができる。したがって、上述の付加的情報
管理手段により、ユーザからの発話による文書検索が繰
り返される場合に、ユーザの各発話からの語抽出結果
が、内部状態に反映され、さらに語抽出で参照される言
語モデル内の情報にも反映されるので、ユーザの一連の
発話により形成される文脈的な制約を語抽出に反映させ
て、語抽出の精度を高めることができ、発話などの音声
による文書検索において、さらに有効な文書検索が行な
える。
【0038】また、上述した第1の態様の文書検索装置
において、所定の単語の間に成立する関係に関する単語
間関係情報を格納する単語間関係情報格納手段を備え、
付加的情報管理手段は、単語間関係情報格納手段に格納
されている単語間関係情報と付加的情報管理手段の内部
状態に基づいて、語抽出手段によって抽出された語抽出
結果に対して付加的情報を生成して内部状態を更新する
こともできる。
【0039】また、上述した第2の態様の文書検索装置
において、所定の単語の間に成立する関係に関する単語
間関係情報を格納する単語間関係情報格納手段を備え、
付加的情報管理手段は、単語間関係情報格納手段に格納
されている単語間関係情報と付加的情報管理手段の内部
状態に基づいて、語抽出結果比較手段によって生成され
る新たな語抽出結果に対して付加的情報を生成して内部
状態を更新することもできる。
【0040】ここで、特定の二つの語が同じ発話や文書
中に現れる尤度、すなわち共起のしやすさは、それらの
語の間にどのような関係が存在するかにより異なる。し
たがって、単語間関係情報格納手段を備えることによ
り、検索条件生成時には、語抽出結果とともに、内部状
態に加えて特定の単語の間に成立する関係に関する情報
も参照し、語抽出結果に対して生成した付加的情報を用
いて検索条件を生成できるので、抽出されている他の語
と共起しにくい語については、抽出誤りとして検索条件
に含めない、などとすることにより語抽出において抽出
誤りがあった場合でも、検索条件生成時に誤りを排除し
てさらに有効な検索を行なえる。
【0041】さらに、単語間の関係を参照した結果、語
抽出結果に含まれない語について、抽出されている語と
一定の関係にあり、共起しやすいことがわかれば、文書
検索結果に、後者の語が含まれるように検索条件を生成
する、あるいは、後者の語を含む文書の結果中の順位を
上げるように検索条件を生成する、などとすることによ
って、さらに有効な検索を行なえる。逆に、単語間の関
係を参照した結果、語抽出結果に含まれる特定の語に対
して、語抽出結果に含まれない特定の語が、共起しにく
いことが得られた場合、文書検索結果に、後者の語が含
まれないように検索条件を生成する、あるいは、後者の
語を含む文書の結果中の順位を下げるように検索条件を
生成する、などとすることによっても、さらに有効な検
索を行なえる。
【0042】また、上述した文書検索装置において、文
書検索手段で生成される検索結果の文書群から、当該文
書群に関連する語の情報を関連語情報として抽出する関
連語情報抽出手段を備え、付加的情報管理手段は、関連
語情報抽出手段で抽出される関連語情報に基づいて、付
加的情報管理手段の内部状態を更新することもできる。
【0043】これにより、ユーザの発話からの語抽出結
果から検索条件を生成する時に、特定の語の間の共起の
しやすさを利用することにより、検索をより有効なもの
にすることができる。また、文書検索においては、検索
された結果の文書群から特徴的な語を抽出し、抽出され
た語を用いて検索条件を修正して再検索することによっ
て検索の精度を高めたり、関連文書の検索を容易にした
りすることができる。
【0044】また、上述した文書検索装置において、付
加的情報管理手段は、関連語情報抽出手段で抽出される
関連語情報と、単語間関係情報格納手段に格納されてい
る単語間関係情報とに基づいて、付加的情報管理手段の
内部状態を更新することもできる。
【0045】上述の文書検索装置においては、ユーザの
発話に基づいて検索された結果の文書群から抽出された
特徴的な語について、ユーザの発話から抽出された語
と、特徴的な共起のし易さを持つ、として付加的情報を
生成するための内部状態に反映させることにより、ユー
ザの後続する発話に基づく検索における検索条件の生成
において利用するものであり、これにより、あらかじめ
特定の単語間に成立する関係に関する知識を用意するこ
となく、文書検索においては、検索された結果の文書群
から特徴的な語を抽出し、抽出された語を用いて検索条
件を修正して再検索することによって検索の精度を高め
たり、関連文書の検索を容易にしたりすることができ
る。
【0046】また、特定の語との共起のし易さを、検索
された文書から抽出することにより、例えば、特定の分
野やテーマに関連した場合にのみ成立するような共起の
し易さや、最新の固有名詞などとの共起のし易さに関す
る情報についても利用することができるので、検索をよ
り有効なものにすることができる。
【0047】さらに、ユーザからの発話による文書検索
が繰り返される場合に、ユーザの各発話からの語抽出結
果が、内部状態に反映されて保持され、次の発話による
語抽出結果からの検索条件の生成にも反映されるため、
ユーザの一連の発話により形成される文脈的な制約を検
索に反映させて、検索の精度を高めることも可能にな
る。
【0048】
【発明の実施の形態】以下、本発明の実施の形態につい
て、図1から図42を用いて説明する。
【0049】<第1の実施の形態>図1は、本発明の文
書検索装置の実施の形態の一例を示した図である。図1
において、この文書検索装置は、オペレータの発話など
の音声を電気信号パターンに変換する音声入力部101
と、音声入力部101によって電気信号パターンに変換
された音声中に特定の語が含まれる尤度を計算するため
の情報を格納した言語モデル格納部102と、言語モデ
ル格納部102に格納された情報を参照し、音声入力部
101から出力されたオペレータの音声に対応する電気
信号を解析し、一定の尤度以上でオペレータの発話中に
含まれると推定される特定の語を抽出する語抽出部10
3と、特定の単語の間に成立する関係に関する情報を格
納する単語間関係情報格納部104と、語抽出部103
から得られる語抽出結果に対して内部状態に応じて付加
的な情報を生成して内部状態を更新し、さらに言語モデ
ル格納部102に格納されている情報に対して付加的な
情報に基づいて変更を加える付加的情報管理部105
と、語抽出部103によって生成される語抽出結果と付
加的情報管理部105によって生成された付加的情報を
参照して文書検索のための検索条件を生成する検索条件
生成部106と、検索対象となる文書を格納する文書格
納部107と、検索条件生成部106によって生成され
る検索条件にしたがって文書格納部107中に格納され
ている文書を検索する文書検索部108と、文書検索部
108による検索結果の文書群から、関連語情報として
同文書群に特徴的な語に関する情報を抽出する関連語情
報抽出部109と、文書検索部108で取得された検索
結果の文書群に関する情報及び関連語情報抽出部109
で取得された検索結果の文書群に特徴的な語に関する情
報をオペレータに検索結果として提示し、該検索結果を
オペレータの指示にしたがって編集し、その編集結果を
クライアント及びオペレータに検索結果として提示する
情報出力部110と、を備えている。
【0050】ここで、付加的情報管理部105は、関連
語情報抽出部109によって抽出された関連語情報と、
単語間関係情報格納部104に格納されている特定の単
語間に成立する関係に関する情報とに基づいて内部状態
を更新する。
【0051】以下、図2〜図5を用いて、本実施の形態
の文書検索装置の各部の内部構成を説明する。
【0052】図2は、言語モデル格納部102の構成を
示した図である。同図において、言語モデル格納部10
2は、電気信号を音素の列に変換するための情報を格納
した音素辞書部202と、抽出する単語と音素列との対
応情報を格納する単語辞書部203と、抽出結果におい
て優先する単語の集合を格納する注目語保持部204、
とを備える。なお、処理の初期状態において、注目語保
持部204は、データを持たない空の状態となってい
る。
【0053】図3は、単語間関係情報格納部104に含
まれるデータの一例を示した図である。図3に示すよう
に、本実施の形態においては、単語間関係情報格納部1
04には、各単語(語)に対して、同単語と高頻度で共
起する語(高頻度共起語)に関する情報が格納されてい
る。
【0054】図4は、付加的情報管理部105の構成を
示した図である。図4において、付加的情報管理部10
5は、語抽出部103が生成した結果を受けとって保持
する語抽出結果保持部401と、単語間関係情報格納部
104に格納された高頻度共起語に関する情報を取得し
て保持する高頻度共起語保持部402と、後述する関連
語情報抽出部109によって抽出される検索結果の文書
群に対して関連の高い語に関する情報を格納する検索結
果高関連語保持部403と、関連語情報抽出部109に
よって抽出される検索結果の文書群に対して関連の低い
語に関する情報を格納する低関連語保持部405と、後
述するアルゴリズムで生成する注目語の集合を保持する
注目語保持部404と、を備える。
【0055】図5は、検索条件生成部106の構成を示
した図であり、同図において、検索条件生成部106
は、後述するアルゴリズムにより生成される検索条件構
成語を保持する検索条件構成語保持部501と、語抽出
部103により生成された語抽出結果と付加的情報管理
部105から取得する検索結果高関連語とを追加検索語
として保持する追加検索御保持部502と、付加的情報
管理部105から取得する低関連語を削除語として保持
する削除語保持部503と、検索条件構成語保持部50
1の内容にしたがって検索条件を合成する検索条件合成
部504と、を備える。
【0056】図6は、クライアントとオペレータの対話
を示す図である。以下、図7〜図22によって、クライ
アントとオペレータの対話による文書検索例の処理を説
明する。ここで、オペレータの目的は、クライアントと
の対話を通じて、クライアントの興味にあった旅行情報
や観光情報を提供することとし、文書格納部107に
は、各種旅行情報や観光情報に関する文書が格納されて
いるとする。また、オペレータとしては、特定の話者を
仮定しており、クライアントとしては、不特定の話者を
仮定しているとする。ここで、音声入力部101、言語
モデル格納部102、及び語抽出部103は、特定のオ
ペレータの発話の特性に合わせて最適化されているとす
る。そのため、オペレータの発話からの語抽出の精度は
高くなる。
【0057】図7は、本実施の形態の文書検索装置の処
理の全体の流れを示したフローチャートである。まず、
クライアントの発話「山陰へ旅行したいんですが」に応
答するオペレータの発話602「山陰へご旅行ですね
?」の処理について説明する。図7のステップ701に
おいて、音声入力部101が、オペレータの発話を電気
信号に変換して語抽出部103に渡す。そして、語抽出
部103が、渡された電気信号から言語モデル格納部1
02に格納された情報に基づいて、語抽出を行なう(ス
テップ701)。
【0058】図8は、語抽出部103による語抽出の流
れを示したフローチャートである。また、図9は、各処
理での結果を概念的に示す図である。
【0059】図8において、まず、言語モデル格納部1
02の音素辞書部202の情報を参照して発話602
(図9)の電気信号から対応する音素列902(図9)
を生成する(ステップ801)。
【0060】次に、言語モデル格納部102中の単語辞
書部203の情報を参照し、ステップ801で生成した
音素列(902)中に一定のしきい値以上の尤度で含ま
れる可能性のある単語の集合(語抽出結果)903(図
9)を単純マッチにより求める(ステップ802)。こ
の単純マッチでは、マッチ(一致)の度合の高いものほ
ど、高い尤度を付与する。また、抽出された語が、電気
信号のどの区間に対応するかについての情報も結果90
3に付与する。
【0061】ここで、図9において、ステップ802で
の語抽出の結果903として、「山陰」「旅行」「三
人」が得られている。そして、「山陰」と「三人」は、
区間が重複する候補であり、「山陰」の尤度の方が高く
抽出されている。
【0062】次に、ステップ802の結果が空なら、語
抽出を終了する(ステップ803)。
【0063】ステップ802の結果が空でない場合(ス
テップ803)、語抽出結果の最初の語「山陰」を「現
在の語」として登録する(ステップ804)。
【0064】次に、その登録された「現在の語」が、注
目語保持部204に含まれる注目語904(図9)であ
るかどうかを判断する(ステップ805)。
【0065】ステップ805で、「現在の語」が、注目
語保持部204に含まれる注目語904と判断した場合
には、文中でその「現在の語」と重複する区間を持つ語
のうち注目語904でない語を結果から除く(ステップ
806)。
【0066】ステップ805で、「現在の語」が注目語
保持部204に含まれる注目語904ではないと判断し
た場合またはステップ806の処理が終了したら、語抽
出結果903に次の語があるかどうかを判断し(ステッ
プ807)、次の語があればそれを「現在の語」として
登録する(ステップ808)。
【0067】以下、語抽出結果の全ての語に対してステ
ップ805〜808の処理を繰り返す。
【0068】以上のステップ804〜ステップ808の
処理により、ステップ802の結果903に含まれる各
語に対して、その語が注目語保持部204に含まれる注
目語904なら、その語と重複する区間を持つ語のうち
注目語904でない語が結果から除かれ、調整後の語抽
出結果905(図9)が生成される。
【0069】図9において、上述の例では注目語保持部
204に含まれる注目語904は空であるため、ステッ
プ802の語抽出結果903に含まれる全ての語が調整
後の語抽出結果905となる。ここで、語抽出結果90
3、905において、語の候補は、対応する発話区間に
したがって、左から右に示されている。また、同一の発
話区間の縦方向では、尤度の高いものが上に来るように
示されている。この語抽出結果903、905の場合、
語抽出の結果として、「山陰」/「三人」、「旅行」が
得られており、「山陰」と「三人」は、区間が重複する
候補であり、「山陰」の方が尤度が高く抽出されてい
る。
【0070】図7に戻って、ステップ701で得られた
語抽出結果905に対して、付加的情報管理部105
は、単語間関係情報格納部104を参照して、高頻度共
起語を取得する(ステップ702)。
【0071】図10は、ステップ702の処理の後の、
付加的情報管理部105の状態を概念的に示す図であ
る。ステップ702において、単語間関係情報格納部1
04には、図3で示すような内容が格納されているの
で、ステップ701で得られた「山陰」に対して、「鳥
取砂丘」、「出雲大社」、及び「宍道湖」が、高頻度共
起語1003として取得される。また、ステップ701
で得られた「旅行」に対して、「宿泊」及び「ツアー」
が、高頻度共起語1003として取得される。そして、
ステップ701で抽出された語(語抽出結果)905
に、ステップ702で取得された高頻度共起語1003
を加えたものが、「注目語904」として、注目語保持
部404に加えられる。なお、今の段階では、まだ文書
の検索は行なわれていないので、検索結果高関連語保持
部403及び低関連語保持部405は、データがなく空
の状態である。
【0072】図7に戻って、ステップ702に続いて、
検索条件生成部106が検索条件を生成する(ステップ
703)。
【0073】図11は、検索条件生成の処理の流れを示
すフローチャートである。また、図12は、検索条件生
成部106の状態を概念的に示す図である。
【0074】まず、検索条件生成部106は、追加検索
語保持部502(図5)内の追加検索語の集合1202
(図12)を空にする(ステップ1101)。
【0075】続いて、ステップ702で得られた語抽出
結果905(図9)を追加検索語の集合1202に加え
追加検索語保持部502に保持する(ステップ110
2)。上述の例では、追加検索語の集合1202に「山
陰」、「旅行」、「三人」が加えられる。
【0076】続いて、付加的情報管理部105の検索結
果高関連語保持部403(図4)に保持されている前回
の検索結果に対する高関連語1001(図10)を追加
検索語保持部502の追加検索語の集合1202に加え
る(ステップ1103)。上述の例では、まだ文書の検
索は行なわれていないので何も加えられない。
【0077】続いて、付加的情報管理部105の低関連
語保持部405に保持されている低関連語1002(図
10)を削除語1203(図12)とする(ステップ1
104)。上述の例では、まだ文書の検索は行なわれて
いないので削除語1203は空となる。
【0078】続いて、検索条件構成語保持部501に保
持されてる前回までの検索条件構成語の集合1201
(図12)に、追加検索語保持部502に保持されてい
る追加検索語の集合1202を加え、新しい検索条件構
成語の集合1204(図12)を生成する(ステップ1
105)。上述の例の場合には、最初に検索条件構成語
保持部501に保持されている検索条件構成語の集合が
空なので、ステップ1105で追加された追加検索語1
202がそのまま新しい検索条件構成語1204とな
る。
【0079】次に、検索条件構成語保持部501に保持
されている検索条件構成語の集合1204から削除語保
持部503に保持されている削除語1203を除く(ス
テップ1106)。上述の例の場合には、削除語120
3は空なので検索条件構成語の集合1204からはなに
も除かれない。
【0080】続いて、以上のステップで得られた検索条
件構成語をすべて「OR(論理和)」結合して、検索条
件1205(図12)を生成する(ステップ110
7)。したがって、上述の例の場合には、「山陰」、
「旅行」、及び「三人」を「OR」結合したものが、検
索条件1205となる。
【0081】図7に戻って、ステップ1106で得られ
た検索条件1205に基づいて、文書検索部108が、
文書格納部107に格納されている文書を検索する(ス
テップ704)。ここで、文書検索部108による検索
については、全文検索などのを用いればよい。
【0082】続いて、関連語情報抽出部109が、ステ
ップ704で得られた文書検索結果に対する関連語を抽
出する(ステップ705)。
【0083】図13は、関連語抽出の処理の流れを示し
たフローチャートである。また、図14は、検索結果及
び関連語抽出結果を示す図である。
【0084】まず、検索結果の文書群1401(図1
4)に現れる語のうち、関連度が一定のしきい値よりも
高いものを、高関連語1402(図14)として抽出す
る(ステップ1301)。ここで、文書群1401と、
語の関連度については、例えば、以下の式で、算出する
ことができる。 ただし、 W :語 S(W) :語Wの関連度 C :定数 n :特定された文書集合に含まれる文書Dの
数 TFj(W):文書Djにおける語Wの出現頻度 FN(W) :特定された文書集合の中で語Wを含む文
書Dの数 IDF(W):語Wのidf値
【0085】ここで、IDF(W)は、以下の式で算出
することができる。 IDF(W)=1−log{DF(W)/N} ただし、 DF(W) :全ての文書で語Wが出現する文書数 N :全ての文書の数
【0086】上述の式「IDF(W)」で求められる所
定の語Wのidf値は、語Wがより多くの文書に出現す
る一般的な語の場合ほど小さくなる。したがって、対象
文書全体において比較的よく出現する一般的な語の重要
度(関連度)を低くすることができる。一方、FN
(W)を考慮することで、特定された文書集合に多く出
現する語の重要度(関連度)を高くできる。このように
して、特定の文書集合における特徴的な語に対して、高
い関連度を付与することができる。なお、上述のTF
(W)をその語Wが含まれる文書Dの文書サイズ(文字
数、単語の種類数など)や単語の総数などで正規化する
こともできる。
【0087】次に、付加的情報管理部105の注目語保
持部404に保持される注目語904のうち、検索結果
の文書群1401において関連度が一定のしきい値より
低いものを低関連語1403とする(ステップ130
2)。
【0088】上述の図14の例では、「山陰」、「旅
行」、「三人」、「鳥取砂丘」、「出雲大社」、「宍道
湖」、「宿泊」、「ツアー」の中から、低関連語140
3を探すことになる。
【0089】以上のようにして、図14に示すように、
文書群1401が検索された結果、文書群1401から
高関連語として「温泉」、「そば」が抽出され、低関連
語1403として「三人」が抽出される。
【0090】図7に戻って、ステップ705に続いて、
関連語情報抽出部109は、付加的情報管理部105に
格納されている付加的情報の更新を行なう(ステップ7
06)。
【0091】図15は、付加的情報更新の処理を示すフ
ローチャートである。まず、上述のステップ705で得
られた高関連語抽出結果1402を付加的情報管理部1
05の検索結果高関連語保持部403に格納し、また、
付加的情報管理部105の注目語保持部404に保持さ
れている注目語904の集合に加える(ステップ150
1)。上述の例の場合、「温泉」及び「そば」が、新た
に注目語904として加えられる。
【0092】次に、上述のステップ705で得られた低
関連語1403を、付加的情報管理部105の低関連語
保持部405に格納し、付加的情報管理部105の注目
語保持部404に保持されている注目語904の集合か
ら除く(ステップ1502)。上述の場合、「三人」が
除かれることになる。
【0093】図16は、ステップ706の処理の完了後
における付加的情報管理部105の状態を概念的に示す
図である。
【0094】図7に戻って、ステップ706に続いて、
付加的情報管理部105の注目語保持部404に保持さ
れている注目語904を、言語モデル格納部102の注
目語保持部204に格納して、その内容を更新する(ス
テップ707)。上述の例の場合、「山陰」、「旅
行」、「鳥取砂丘」、「出雲大社」、「宍道湖」、「宿
泊」、「ツアー」、「温泉」、及び「そば」が、注目語
904として格納される。
【0095】次に、情報出力部110が、文書検索結果
及び関連語情報をオペレータに提示する(ステップ70
8)。オペレータは、その文書検索結果及び関連語情報
の中から、クライアントに提示する部分を選択する。今
回の例では、オペレータは、クライアントに対して何も
提示しなかったとする。
【0096】以上が、クライアントの発話601「山陰
へ旅行したいんですが」に応答するオペレータの発話6
02「山陰へご旅行ですね?」の処理である。
【0097】次に、クライアントの発話603「はい、
出雲大社に行ってみたいです」に応答するオペレータの
発話604「出雲大社ですね?」の処理に移る。処理の
流れは、上述の図7の処理フローと同じであるので、以
下では、各主要な処理の結果のみを示していく。
【0098】図17は、オペレータの発話604からの
語抽出(ステップ701)の結果を示す図である。ここ
で、注目語保持部204には、前回の処理で得た注目語
904が格納されている。
【0099】また、ステップ802の処理による抽出結
果903の中にある「出雲大社」が、注目語904に含
まれているの、ステップ805及びステップ806の処
理によって、「出雲大社」と重複する区間にある抽出結
果903の語のうち、注目語904に含まれない語が、
結果から除かれる。すなわち、「伊豆」及び「会社」
が、語抽出結果903から除かれることになり、新しい
語抽出結果905として「出雲大社」のみが抽出され
る。
【0100】図18は、付加的情報管理部105による
付加的情報取得(ステップ702)の結果を示す図であ
る。図4に示すように、単語間関係情報格納部104に
は、「出雲大社」の高頻度共起語として「縁結び」が格
納されているので、高頻度共起語1003として「縁結
び」が取得され、注目語904として「縁結び」が追加
される。
【0101】図19は、検索条件生成部106による検
索条件生成(ステップ703)の結果を示す図である。
今回は、前回の検索結果1201に対して、高関連語1
001として「温泉」及び「そば」が得られているの
で、図11のステップ1103において、「温泉」及び
「そば」が追加検索語となる。その結果、ステップ11
06の処理が完了した後に得られる(新)検索条件構成
語1204は、「山陰」、「旅行」、「出雲大社」、
「温泉」、「そば」となる。そして、ステップ1107
の処理で、検索条件として、”「山陰」OR「旅行」O
R「出雲大社」OR「温泉」OR「そば」”が得られ
る。
【0102】次に、ステップ704及びステップ705
によって、文書検索と関連語抽出が行なわれる。
【0103】図20は、ステップ704及びステップ7
05による文書検索と関連語抽出の結果を示す図であ
る。図20において、高関連語抽出結果1402とし
て、「大社町」、「玉造温泉」が得られる。また、注目
語中の低関連語1403として、「鳥取砂丘」、「宍道
湖」が得られる。ここで、検索された文書群1401に
おいては、特に、「出雲大社」、「温泉」、「そば」に
関する文書が上位に来ている。
【0104】図21は、付加的情報管理部105による
付加的情報の更新(ステップ706)の結果を示す図で
ある。図21において、図11のステップ1101の処
理で、高関連語1001の「大社町」、「玉作温泉」が
注目語904に追加され、ステップ1102の処理で、
低関連語1002の「鳥取砂丘」、「宍道湖」が、注目
語904から削除されている。
【0105】上述と同様にして、ステップ708で、以
上の結果がオペレータに提示される。ここで、オペレー
タは、クライアントには、まだ何も提示しないとする。
【0106】次に、クライアントの発話605「あと、
温泉にも入りたいです」に応答するオペレータの発話6
06「それでは『出雲大社と玉造温泉への旅』というツ
アーはいかがですか?」の処理について説明する。ここ
でも、処理の流れは、上述の図7の処理フローと同じで
あるので、各主要な処理の結果のみを示していく。
【0107】図22は、オペレータの発話606からの
語抽出(ステップ701)の結果を示す図である。ここ
で、注目語保持部204には、前回の処理で得た注目語
904が格納されている。今回の処理においても上述の
処理の場合と同様にして、ステップ803〜ステップ8
08の処理により、「会津」、「伊豆」、「会社」、
「多摩」、「祭り」、「温泉」が候補から除かれ、新し
い語抽出結果905として、「出雲大社」、「玉造温
泉」、「旅」、「ツアー」が得られる。
【0108】ここで、オペレータが、発話606「それ
では『出雲大社と玉造温泉への旅』というツアーはいか
がですか?」と発話しているが、これは、発話602、
604の処理の結果得られる文書群として、オペレータ
に1401のような文書群が提示されていることによ
る。
【0109】以降、発話604に対する処理と同様な処
理が行なわれる。このよにして、ステップ708の結果
出力においては、オペレータは、クライアントに対し
て、情報出力部110から文書「出雲大社と玉造温泉へ
の旅」の一部または全部を提示することができる。
【0110】このように、本発明の文書検索装置及び文
書検索方法によれば、オペレータの発話から、語抽出を
行ない、単語間の関連情報、検索結果からの高関連語、
及び低関連語の情報を利用することによって、語抽出の
精度が高まり、文書検索条件が適切に更新され、オペレ
ータに、適宜有効な文書検索結果を提示することができ
るようになった。
【0111】以上、オペレータの発話(会話の一方)か
ら、文書を検索する文書検索装置及び文書検索方法につ
いて述べたが、クライアント及びオペレータの発話(会
話の両方)から、文書を検索することもできる。以下、
クライアント及びオペレータの発話(会話の両方)か
ら、文書を検索する文書検索装置及び文書検索方法につ
いて説明する。
【0112】<第2の実施の形態>図23は、本発明の
文書検索装置の実施の形態の一例を示した図である。図
23において、図1と同様の構成のものには同一の符号
を付している。
【0113】図23において、この文書検索装置は、第
1のユーザであるクライアントの発話などの音声を電気
信号パタンに変換する音声入力部101aと、音声入力
部101aによって電気信号パタンに変換された音声中
に特定の語が含まれる尤度を計算するための情報を格納
した言語モデル格納部102aと、言語モデル格納部1
02aに格納された情報を参照し、音声入力部101a
から出力されたクライアントの音声に対応する電気信号
を解析し、一定の尤度以上でクライアントの発話中に含
まれると推定される特定の語を抽出する語抽出部103
aと、第2のユーザであるオペレータの発話などの音声
を電気信号パタンに変換する音声入力部101bと、音
声入力部101bによって電気信号パタンに変換された
音声中に特定の語が含まれる尤度を計算するための情報
を格納した言語モデル格納部102bと、言語モデル格
納部102bに格納された情報を参照し、音声入力部1
01bから出力されたオペレータの音声に対応する電気
信号を解析し、一定の尤度以上でオペレータの発話中に
含まれると推定される特定の語を抽出する語抽出部10
3bと、第1の語抽出部103aから得られる第1の語
抽出結果と第2の語抽出部103bから得られる第2の
語抽出結果とを比較して新たな語抽出結果を生成する語
抽出結果比較部2301と、特定の単語の間に成立する
関係に関する情報を格納する単語間関係情報格納部10
4と、語抽出結果比較部2301によって生成される語
抽出結果に対して内部状態に応じて付加的な情報を生成
して内部状態を更新し、さらに言語モデル格納部102
a、102bに格納されている情報に対して付加的情報
に基づいて変更を加える付加的情報管理部105と、語
抽出結果比較部2301によって生成される語抽出結果
と付加的情報管理部105によって生成された付加的情
報を参照して文書検索のための検索条件を生成する検索
条件生成部106と、検索対象となる文書を格納する文
書格納部107と、検索条件生成部106によって生成
される検索条件にしたがって文書格納部107中に格納
されている文書を検索する文書検索部108と、文書検
索部108による検索結果の文書群から、関連語情報と
して同文書群に特徴的な語に関する情報を抽出する関連
語情報抽出部109と、文書検索部108で取得された
検索結果の文書群に関する情報及び関連語情報抽出部1
09で取得された検索結果文書群に特徴的な語に関する
情報をオペレータに検索結果として提示し、該検索結果
をオペレータの指示にしたがって編集し、その編集結果
をクライアント及びオペレータに検索結果として提示す
る情報出力部110と、を備えている。
【0114】ここで、付加的情報管理部105は、関連
語情報抽出部109によって抽出された関連語情報と、
単語間関係情報格納部104に格納されている特定の単
語間に成立する関係に関する情報とに基づいて内部状態
を更新する。また、言語モデル格納部102a、102
bの構成は、言語モデル格納部102(図1)と同様の
構成(図2)になっている。
【0115】図24は、語抽出結果比較部2301の構
成を示した図である。図24において、語抽出結果比較
部2301は、語抽出部103a(クライアントの発
話)からの語抽出結果を保持する第1発話語抽出結果保
持部2401と、語抽出部103b(オペレータの発
話)からの語抽出結果を保持する第2発話語抽出結果保
持部2402と、第1発話語抽出結果保持部2401と
第2発話語抽出結果保持部2402の語抽出結果を比較
して抽出結果を生成する抽出結果比較部2403を備え
る。
【0116】ここで、オペレータの目的は、クライアン
トとの対話を通じて、クライアントの興味にあった旅行
情報や観光情報を提供することであるとし、文書格納部
107には、各種旅行情報、観光情報に関する文書が格
納されていることとする。
【0117】また、オペレータとしては、特定の話者を
仮定しており、クライアントとしては、不特定の話者を
仮定しているとする。そのため、第1の音声入力部10
1a、第1の言語モデル格納部102a、第1の語抽出
部103aは、不特定のクライアントの発話から語抽出
を行なえるように、平均的な話者の特性に合わせて最適
化されており、第2の音声入力部101b、第2の言語
モデル格納部102b、第2の語抽出部103bは、特
定のオペレータの発話の特性に合わせて、最適化されて
いるとする。そのため、一般に、クライアントの発話か
らの語抽出の精度は低く、オペレータの発話からの語抽
出の精度は高くなる。以下、図6に示すクライアントと
オペレータの対話による文書検索処理について説明す
る。
【0118】図25は、図23に示した文書検索装置の
処理の全体を示したフローチャートである。図25にお
いては、図7と同様の処理については同一のステップ番
号を付している。以下、図面を用いてクライアントとオ
ペレータの対話による文書検索の処理を説明する。
【0119】まず、クライアントの発話601「山陰へ
旅行したいんですが」の処理について説明する。
【0120】図25において、まず、音声入力部101
aが、クライアントの発話を電気信号に変換して語抽出
部103aに渡す。語抽出部103aは、渡された電気
信号から、言語モデル格納部102aに格納された情報
に基づいて語抽出を行なう(ステップ2501a)。こ
こで、語抽出部103aによる語抽出の処理の詳細は、
上述の図8のフローチャートと同様の処理となる。
【0121】図26は、クライアントの発話601から
の語抽出結果を概念的に表す図である。図26におい
て、それぞれの項目は、図9に示したものと同様のもの
である。この例の場合、語抽出の結果905aとして、
「三人」、「旅行」、「医院」、「山陰」が得られてい
る。ここで、「三人」と「山陰」は、区間が重複する候
補であり、「三人」の方が尤度が高く抽出されている。
【0122】次に、図25において、オペレータの発話
602「山陰へご旅行ですね?」が処理される(ステッ
プ2501b)。この処理は、上述の図8ので示した語
抽出の処理と同様の処理である。
【0123】図27は、オペレータの発話602からの
語抽出結果を概念的に表す図である。図27において、
それぞれの項目は、図9に示したものと同様のものであ
る。
【0124】この例の場合、語抽出の結果905bとし
て、「山陰」、「旅行」、「三人」が得られている。こ
こで、「山陰」と「三人」は、区間が重複する候補であ
り、「山陰」の方が尤度が高く抽出されている。
【0125】次に、語抽出結果比較部2301は、語抽
出部103aのクライアント側の語抽出結果905a
と、語抽出部103bのオペレータ側の語抽出結果90
5bとを比較して抽出語を生成する(ステップ250
2)。
【0126】図28は、語抽出結果比較部2301の処
理を示したフローチャートである。また、図29は、語
抽出結果比較部2301の処理の比較結果を示した図で
ある。この語抽出結果比較処理の開始時において、第1
語抽出結果保持部2401は、上述のようにして得られ
たクライアント側の発話601からの第1の語抽出結果
905aを格納している。また、第2語抽出結果保持部
2402は、上述のようにして得られたオペレータ側の
発話602からの第2の語抽出結果905bを格納して
いる。
【0127】図28において、まず、比較結果2901
(図29)を空にする(ステップ2801)。
【0128】次に、語抽出部103b(オペレータ側)
からの第2の抽出結果905bが空であるかを確認する
(ステップ2802)。空であれば、この比較処理を終
了する。
【0129】第2の抽出結果905bが空でなければ、
第2の抽出結果905bの最初の語が現在の語として登
録される(ステップ2803)。図29の場合、第2の
抽出結果905bの最初の語「山陰」が現在の語として
登録される。
【0130】次に、第2の抽出結果905bの中に、現
在の語と抽出区間が重複し、当該現在の語より尤度の高
い語(対立候補)があるか否かを判断する(ステップ2
804)。図29の場合、第2の抽出結果905bの中
に、現在の語「山陰」と抽出区間が重複し、当該現在の
語「山陰」より尤度の高い語があるか否かを判断する。
この場合には、抽出区間が重複する語として「三人」が
検出されるが、「三人」の尤度が「山陰」より低いの
で、対立候補がないことになる。
【0131】ステップ2804で、対立候補があった場
合、この対立候補が語抽出部103a(クライアント
側)からの第1の抽出結果905aに含まれているかど
うかを判断する(ステップ2805)。
【0132】一方、ステップ2804で、対立候補がな
かった場合、または、ステップ2805で、対立候補が
第1の抽出結果905aに含まれていなかった場合、現
在の語を比較結果の抽出語2901(図29)に登録す
る(ステップ2806)。上述の例の場合、比較結果の
抽出語2901に現在の語「山陰」が登録される。
【0133】また、ステップ2805で、対立候補が第
1の抽出結果905aに含まれていた場合、または、ス
テップ2806の処理の後、第2の抽出結果905bに
次の語があるかどうかを判断する(ステップ280
7)。ここで、語の選択は、抽出区間の順に行われる。
次の語がなければ、この比較処理は終了する。
【0134】ステップ2807で、次の語があれば、そ
の次の語を現在の語として登録する(ステップ280
8)。上述の例では、次の語として「三人」が選択さ
れ、現在の語として登録される。
【0135】以下、ステップ2804〜ステップ280
8を第2の抽出結果905bに含まれる語全てに対して
行われる。上述の例の場合、現在の語「三人」において
は、ステップ2804で対立候補「山陰」が検出され
る。そして、この対立候補「山陰」が、第1の抽出結果
905aに含まれているので(ステップ2805)、比
較結果の抽出語2901に登録されずに、次の語「旅
行」の処理に移行する。
【0136】現在の語「旅行」は、上述のステップ28
04及びステップ2806によって、比較結果の抽出語
2901に登録される。
【0137】上述のように、オペレータ側の抽出結果9
05b中の「山陰」、「旅行」については、区間が重複
する尤度が高い候補がないので、そのまま結果2901
に加えられる。
【0138】一方、「三人」については、区間が重複す
る尤度が高い候補「山陰」があり、かつ「山陰」が、ク
ライアント側の抽出結果905aに含まれているので、
棄却される。なお、クライアント側の抽出結果905a
のみに含まれる「医院」は、抽出語2901に加えられ
ない。
【0139】図25において、上述のようにして(ステ
ップ2502、図28)得られた抽出語2901に対し
て、付加的情報管理部105が、単語間関係情報格納部
104を参照することによって、高頻度共起語が取得さ
れる(ステップ2503)。この処理は、図7で示した
ステップ702とほぼ同様の処理を行う。ステップ25
03とステップ702の相違点は、高頻度共起語を取得
する対象が、ステップ2503では抽出語2901なの
に対して、ステップ702では語抽出部103の抽出結
果905が対象となる点である。
【0140】上述の場合、ステップ2502で得られ
た、「山陰」に対して、「鳥取砂丘」、「出雲大社」、
「宍道湖」が、「旅行」に対して、「宿泊」、「ツア
ー」が、高頻度共起語として取得され、高頻度共起語保
持部402(図4)に保持される。そして、抽出語に取
得された高頻度共起語を加えたものが「注目語」として
注目語保持部404(図4)に加えられる。
【0141】今回は、まだ文書の検索は行なわれていな
いので、検索結果高関連語保持部403(図4)及び低
関連語保持部405(図4)は、空である。
【0142】図30は、ステップ2503の後の、付加
的情報管理部105の状態を概念的に示す図である。
【0143】続いて、検索条件生成部106は、検索条
件を生成する(ステップ2504)。この処理は、図7
で示したステップ703とほぼ同様の処理を行う。ステ
ップ2504とステップ703の相違点は、追加検索語
の対象が、ステップ2504では抽出語2901なのに
対して、ステップ703では語抽出部103の抽出結果
905が対象となる点である。
【0144】図31は、ステップ2504の処理の後
の、検索条件生成部106の状態を概念的に示す図であ
る。
【0145】以下、図25において、図7のステップ7
04〜ステップ708と同様の処理が行われる。
【0146】図32は、最初の発話601及び602に
対するステップ704及びステップ705(図25)の
処理後の検索結果及び関連語抽出結果を示す図である。
ここで、図14との相違点は、図32において、検索条
件1205及び注目語中の低関連語1403に、「三
人」が含まれないことである。
【0147】すなわち、語抽出結果比較部2301を設
けることにより、文書検索部108の処理がより簡素化
され、負荷が軽減されることになる。
【0148】図33は、図25のステップ705の処理
の後の、付加的情報管理部105の状態を概念的に示す
図である。
【0149】以下、クライアントの発話603及びオペ
レータの発話604についても、図25のステップ25
01a〜ステップ708の処理が繰り返される。
【0150】図34は、ステップ2501aによるクラ
イアントの発話603からの語抽出結果を示す図であ
る。図35は、ステップ2501bによるオペレータの
発話604からの語抽出結果を示す図である。図36
は、ステップ2502による語抽出結果比較部2301
の語抽出結果を示す図である。図37は、ステップ25
03による付加的情報管理部105の付加的情報取得結
果を示す図である。図38は、ステップ2504による
検索条件生成部106の検索条件の生成結果を示す図で
ある。図39は、発話603及び604に対するステッ
プ704及びステップ705(図25)の処理後の検索
結果及び関連語抽出結果を示す図である。図40は、ス
テップ706による付加的情報管理部105の付加的情
報の更新結果を示す図である。
【0151】同様にして、クライアントの発話605及
びオペレータの発話606についても、図25のステッ
プ2501a〜ステップ708の処理が繰り返される。
【0152】図41は、ステップ2501aによるクラ
イアントの発話605からの語抽出結果を示す図であ
る。図42は、ステップ2501bによるオペレータの
発話606からの語抽出結果を示す図である。
【0153】以上のようにして処理を行い、図25のス
テップ708において、オペレータは、クライアント
に、文書「出雲大社と玉造温泉への旅」の一部または全
部を提示することができる。
【0154】以上のように、本発明の実施形態において
は、クライアントとオペレータの発話から、語抽出を行
ない、単語間の関連情報、検索結果からの高関連語、及
び低関連語の情報を利用することにより、語抽出の精度
が高まり、文書検索条件が適切に更新され、オペレータ
に対して適宜有効な文書検索結果を提示することができ
る。
【0155】以上、本発明の文書検索装置及び文書検索
方法について説明したが、図23に示した文書検索装置
において、付加的情報管理部105と検索条件生成部1
06の対象を、語抽出結果比較部2301から図1の文
書検索装置のように語抽出部103aまたは語抽出部1
03bに選択的に切り換えられるようにすることができ
る。
【0156】
【発明の効果】以上のように、本発明の文書検索方法、
及び文書検索装置においては、文認識と異なり、一定の
尤度以上でユーザの発話に含まれる推定される語を抽出
するので、本来発話された語が、一定の尤度で含まれる
ことが推定できるのなら、文認識を行なった場合、認識
結果を一つに絞る仮定において棄却されてしまうような
場合でも、語認識結果には、含まれることになる。した
がって、発話などの音声による文書検索において、文認
識の精度に影響されず、有効な文書検索行なうことがで
きるようになった。
【0157】また、文認識と異なり、ユーザの発話の発
話中のすべての語を抽出する必要はなく、検索の目的や
検索対象となる文書集合に応じて、最小限の言語モデル
を構成すればよいので、言語データの収集コストも低く
抑えることができるようになった。
【0158】また、ユーザからの発話による文書検索が
繰り返される場合に、ユーザの各発話からの語抽出結果
が、内部状態に反映されて保持され、次の発話による語
抽出結果からの検索条件の生成にも反映されるため、ユ
ーザの一連の発話により形成される文脈的な制約を検索
に反映させて、検索の精度を高めることができるように
なった。
【0159】また、ユーザからの発話による文書検索が
繰り返される場合に、ユーザの各発話からの語抽出結果
が、内部状態に反映され、さらに語抽出で参照される言
語モデル内の情報にも反映されるので、ユーザの一連の
発話により形成される文脈的な制約を語抽出に反映させ
て、語抽出の精度を高めることができるようになった。
【0160】また、検索条件生成時には、語抽出結果と
ともに、内部状態に加えて、特定の単語の間に成立する
関係に関する情報も参照して、語抽出結果に対して生成
した、付加的情報を用いて、検索条件を生成しているの
で、抽出されている他の語と共起しにくい語について
は、抽出誤りとして、検索条件に含めない、などとする
ことにより、語抽出において抽出誤りがあった場合で
も、検索条件生成時に誤りを排除して、さらに有効な検
索を行なえるようになった。
【0161】さらに、単語間の関係を参照した結果、抽
出結果に含まれない語について、抽出されている語と一
定の関係にあり、共起しやすいことがわかれば、文書検
索結果に、後者の語が含まれるように検索条件を生成す
る、あるいは後者の語を含む文書の結果中の順位を上げ
るように検索条件を生成する、などとすることによっ
て、さらに有効な検索を行なえるようになった。
【0162】逆に、単語間の関係を参照した結果、抽出
結果に含まれる特定の語に対して、抽出結果に含まれな
い特定の語が、共起しにくいことが得られた場合、文書
検索結果に、後者の語が含まれないように検索条件を生
成する、あるいは後者の語を含む文書の結果中の順位を
下げるように検索条件を生成する、などとすることによ
っても、さらに有効な検索を行なえるようになった。
【0163】また、ユーザの発話から語抽出結果から検
索条件を生成する時に、特定の語の間の共起のしやすさ
を利用することにより、検索をより有効なものにするこ
とができるようになった。
【0164】また、ユーザの発話に基づいて検索された
結果の文書群から抽出された特徴的な語について、ユー
ザの発話から抽出された語と、特徴的な共起のしやすさ
を持つ、として付加的情報を生成するための内部状態に
反映させることにより、ユーザの後続する発話に基づく
検索における検索条件の生成において利用するものであ
り、これにより、あらかじめ特定の単語間に成立する関
係に関する知識を用意することなく、検索をより有効な
ものにすることができるようになった。
【0165】また、特定の語との共起のしやすさを、検
索された文書から抽出することにより、例えば、特定の
分野やテーマに関連した場合のみに成立するような共起
のしやすさや、最新の固有名詞などとの共起のしやすさ
に関する情報についても利用することができるので、検
索をより有効なものにすることができるようになった。
【0166】さらに、第1のユーザと第2のユーザの発
話からの語抽出結果を比較し、その結果を検索条件の生
成に利用することにより、2人のユーザが協調して、文
書検索を行なう場合に、より効果的な文書検索を行なう
ことが可能になった。
【0167】また、検索結果を、2人のユーザに対し
て、異なる方法で編集して提示することにより、それぞ
れのユーザに応じた形で結果を提示することができ、よ
り有効に検索結果を提示できるようになった。
【図面の簡単な説明】
【図1】本発明の文書検索装置の第1の実施形態におけ
る構成図である。
【図2】本発明の文書検索装置における、言語モデル格
納部の構成を示す図である。
【図3】本発明の文書検索装置における、単語間関係情
報格納部のデータを示す図である。
【図4】本発明の文書検索装置における、付加的情報管
理部の構成を示す図である。
【図5】本発明の文書検索装置における、検索条件生成
部の構成を示す図である。
【図6】本発明の文書検索装置における、クライアント
とオペレータの対話を示す図である。
【図7】本発明の第1の実施形態における、処理全体の
フローチャートである。
【図8】本発明の文書検索装置における、語抽出の処理
のフローチャートである。
【図9】本発明の文書検索装置ににおける、各処理での
結果を示す概念図である。
【図10】本発明の第1の実施形態における、付加的情
報管理部の状態を示す概念図である。
【図11】本発明の文書検索装置における、検索条件生
成の処理のフローチャートである。
【図12】本発明の第1の実施形態における、検索条件
生成部の状態を示す概念図である。
【図13】本発明の文書検索装置における、関連語抽出
の処理のフローチャートである。
【図14】本発明の第1の実施形態における、検索結果
及び関連語抽出結果を示す図である。
【図15】本発明の文書検索装置における、付加的情報
更新の処理のフローチャートである。
【図16】本発明の第1の実施形態における、付加的情
報管理部の状態を示す概念図である。
【図17】本発明の第1の実施形態における、オペレー
タの発話の語抽出結果を示す図である。
【図18】本発明の第1の実施形態における、付加的情
報管理部の付加的情報取得結果を示す図である。
【図19】本発明の第1の実施形態における、検索条件
生成部の検索条件の生成結果を示す図である。
【図20】本発明の第1の実施形態における、文書検索
と関連語抽出の結果を示す図である。
【図21】本発明の第1の実施形態における、付加的情
報の更新の結果を示す図である。
【図22】本発明の第1の実施形態における、オペレー
タの発話の語抽出結果を示す図である。
【図23】本発明の文書検索装置の第2の実施形態にお
ける構成図である。
【図24】本発明の第2の実施形態における、語抽出結
果比較部の構成を示す図である。
【図25】本発明の第2の実施形態における、処理全体
のフローチャートである。
【図26】本発明の第2の実施形態における、クライア
ントの発話からの語抽出結果を示す概念図である。
【図27】本発明の第2の実施形態における、オペレー
タの発話からの語抽出結果を示す概念図である。
【図28】本発明の第2の実施形態における、語抽出結
果比較部の処理のフローチャートである。
【図29】本発明の第2の実施形態における、語抽出結
果比較部の処理の比較結果を示す図である。
【図30】本発明の第2の実施形態における、付加的情
報管理部の状態を示す概念図である。
【図31】本発明の第2の実施形態における、検索条件
生成部の状態を示す概念図である。
【図32】本発明の第2の実施形態における、検索結果
及び関連語抽出結果を示す図である。
【図33】本発明の第2の実施形態における、付加的情
報管理部の状態を示す概念図である。
【図34】本発明の第2の実施形態における、クライア
ントの発話からの語抽出結果を示す図である。
【図35】本発明の第2の実施形態における、オペレー
タの発話からの語抽出結果を示す図である。
【図36】本発明の第2の実施形態における、語抽出結
果比較部の語抽出結果を示す図である。
【図37】本発明の第2の実施形態における、付加的情
報管理部の付加的情報取得結果を示す図である。
【図38】本発明の第2の実施形態における、検索条件
生成部の検索条件の生成結果を示す図である。
【図39】本発明の第2の実施形態における、検索結果
及び関連語抽出結果を示す図である。
【図40】本発明の第2の実施形態における、付加的情
報管理部の付加的情報の更新結果を示す図である。
【図41】本発明の第2の実施形態における、クライア
ントの発話からの語抽出結果を示す図である。
【図42】本発明の第2の実施形態における、オペレー
タの発話からの語抽出結果を示す図である。
【図43】従来の文書検索装置の構成図である。
【図44】従来の文書検索装置における文書検索方法の
処理のフローチャートである。
【図45】従来の音声認識を示す図である。
【符号の説明】
101、101a、101b、4301 音声入力部 102、102a、102b 言語モデル格納部 103、103a、103b 語抽出部 104 単語間関係情報格納部 105 付加的情報管理部 106、4303 検索条件生成部 107、4304 文書格納部 108、4305 文書検索部 109 関連語情報抽出部 110、4306 情報出力部 202 音素辞書部 203 単語辞書部 204 注目語保持部 401 語抽出結果保持部 402 高頻度共起語保持部 403 検索結果高関連語保持部 404 注目語保持部 405 低関連語保持部 501 検索条件構成語保持部 502 追加検索語保持部 503 削除語保持部 504 検索条件合成部 2301 語抽出結果比較部 2401 第1語抽出結果保持部 2402 第2語抽出結果保持部 2403 抽出結果比較部 4302 文認識部
フロントページの続き (72)発明者 野口 直彦 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 (72)発明者 伊藤 快 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 (72)発明者 佐藤 光弘 大阪府門真市大字門真1006番地 松下電器 産業株式会社内 Fターム(参考) 5B075 ND02 NK02 PP07 PP12 PP24 PQ02 PQ32 PQ46

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 音声などの音に基づいて文書の検索を行
    なう文書検索装置であって、 音を電気信号に変換して文字パターンデータを生成する
    音声入力手段と、 前記音声入力手段で生成される前記文字パターンデータ
    から認識される語の尤度を決定する尤度情報を格納する
    言語モデル格納手段と、 前記言語モデル格納手段に格納された尤度情報に基づい
    て、前記音声入力手段から出力される前記文字パターン
    データに含まれると推定される語を語抽出結果として抽
    出する語抽出手段と、 前記語抽出手段で抽出される前記語抽出結果に基づい
    て、文書を検索するための検索条件を生成する検索条件
    生成手段と、 検索対象となる文書を格納する文書格納手段と、 前記検索条件生成手段によって生成される前記検索条件
    に基づいて、前記文書格納手段に格納されている前記文
    書を検索する文書検索手段と、 を備えることを特徴とする文書検索装置。
  2. 【請求項2】 さらに、前記語抽出手段によって抽出さ
    れる前記語抽出結果に対して、内部状態に応じて付加的
    な情報を生成し、当該内部状態を更新する付加的情報管
    理手段を備え、 前記検索条件生成手段は、前記語抽出結果及び前記付加
    的情報管理手段によって生成された前記付加的な情報に
    基づいて、前記検索条件を生成する、 ことを特徴とする請求項1記載の文書検索装置。
  3. 【請求項3】 前記付加的情報管理手段は、前記付加的
    な情報に基づいて前記言語モデル格納手段に格納されて
    いる前記尤度情報を更新することを特徴とする請求項2
    記載の文書検索装置。
  4. 【請求項4】 さらに、所定の単語の間に成立する関係
    に関する単語間関係情報を格納する単語間関係情報格納
    手段を備え、 前記付加的情報管理手段は、前記単語間関係情報格納手
    段に格納されている前記単語間関係情報と前記付加的情
    報管理手段の前記内部状態に基づいて、前記語抽出手段
    によって抽出された前記語抽出結果に対して付加的情報
    を生成して前記内部状態を更新する、 ことを特徴とする請求項2または3記載の文書検索装
    置。
  5. 【請求項5】 音声などの音に基づいて文書の検索を行
    なう文書検索装置であって、 第1の音を電気信号に変換して第1の文字パターンデー
    タを生成する第1の音声入力手段と、 前記第1の音声入力手段で生成される前記第1の文字パ
    ターンデータから認識される語の尤度を決定する尤度情
    報を格納する第1の言語モデル格納手段と、 前記第1の言語モデル格納手段に格納された尤度情報に
    基づいて、前記第1の音声入力手段から出力される前記
    第1の文字パターンデータに含まれると推定される語を
    第1の語抽出結果として抽出する第1の語抽出手段と、 第2の音を電気信号に変換して第2の文字パターンデー
    タを生成する第2の音声入力手段と、 前記第2の音声入力手段で生成される前記第2の文字パ
    ターンデータから認識される語の尤度を決定する尤度情
    報を格納する第2の言語モデル格納手段と、 前記第2の言語モデル格納手段に格納された尤度情報に
    基づいて、前記第2の音声入力手段から出力される前記
    第2の文字パターンデータに含まれると推定される語を
    第2の語抽出結果として抽出する第2の語抽出手段と、 前記第1の語抽出手段で抽出される前記第1の語抽出結
    果と、前記第2の語抽出手段で抽出される前記第2の語
    抽出結果とを比較して新たな語抽出結果を生成する語抽
    出結果比較手段と、 前記語抽出結果比較手段によって生成される前記新たな
    語抽出結果に基づいて、文書を検索するための検索条件
    を生成する検索条件生成手段と、 検索対象となる文書を格納する文書格納手段と、 前記検索条件生成手段によって生成される前記検索条件
    に基づいて、前記文書格納手段に格納されている前記文
    書を検索する文書検索手段と、 を備えることを特徴とする文書検索装置。
  6. 【請求項6】 さらに、前記文書検索手段で生成される
    前記検索結果を出力する情報出力手段を備える、ことを
    特徴とする請求項1乃至5記載の文書検索装置。
  7. 【請求項7】 さらに、前記文書検索手段で生成される
    前記検索結果を、前記第1の音の発生源と前記第2の音
    の発生源のそれぞれに対して、異なる編集によって出力
    する情報出力手段を備えることを特徴とする請求項5記
    載の文書検索装置。
  8. 【請求項8】 さらに、前記語抽出結果比較手段によっ
    て生成される前記新たな語抽出結果に対して、内部状態
    に応じて付加的な情報を生成し、当該内部状態を更新す
    る付加的情報管理手段を備え、 前記検索条件生成手段は、前記新たな語抽出結果及び前
    記付加的情報管理手段によって生成された前記付加的な
    情報に基づいて、前記検索条件を生成する、 ことを特徴とする請求項5乃至7記載の文書検索装置。
  9. 【請求項9】 前記付加的情報管理手段は、前記付加的
    な情報に基づいて前記言語モデル格納手段に格納されて
    いる前記尤度情報を更新することを特徴とする請求項8
    記載の文書検索装置。
  10. 【請求項10】 さらに、所定の単語の間に成立する関
    係に関する単語間関係情報を格納する単語間関係情報格
    納手段を備え、 前記付加的情報管理手段は、前記単語間関係情報格納手
    段に格納されている前記単語間関係情報と前記付加的情
    報管理手段の前記内部状態に基づいて、前記語抽出結果
    比較手段によって生成される前記新たな語抽出結果に対
    して付加的情報を生成して前記内部状態を更新する、 ことを特徴とする請求項8または9記載の文書検索装
    置。
  11. 【請求項11】 さらに、前記文書検索手段で生成され
    る前記検索結果の文書群から、当該文書群に関連する語
    の情報を関連語情報として抽出する関連語情報抽出手段
    を備え、 前記付加的情報管理手段は、前記関連語情報抽出手段で
    抽出される前記関連語情報に基づいて、前記付加的情報
    管理手段の前記内部状態を更新する、 ことを特徴とする請求項2、3、4、8、9、または1
    0何れかに記載の文書検索装置。
  12. 【請求項12】 前記付加的情報管理手段は、前記関連
    語情報抽出手段で抽出される前記関連語情報と、前記単
    語間関係情報格納手段に格納されている前記単語間関係
    情報とに基づいて、前記付加的情報管理手段の前記内部
    状態を更新することを特徴とする請求項11記載の文書
    検索装置。
  13. 【請求項13】 前記検索条件生成手段は、前記語抽出
    結果比較手段によって生成される前記新たな語抽出結
    果、前記第1の語抽出手段によって抽出される前記第1
    の語抽出結果、または前記第2の語抽出手段によって抽
    出される前記第2の語抽出結果に基づいて、文書を検索
    するための検索条件を生成することを特徴とする請求項
    5乃至7記載の文書検索装置。
  14. 【請求項14】 音声などの音に基づいて文書の検索を
    行なう文書検索方法であって、 音を電気信号に変換して文字パターンデータを生成し、 文字パターンデータから認識される語の尤度を決定する
    尤度情報に基づいて、前記文字パターンデータに含まれ
    ると推定される語を語抽出結果として抽出し、 前記語抽出結果に基づいて、文書を検索するための検索
    条件を生成し、 前記検索条件に基づいて、文書を検索する、 ことを特徴とする文書検索方法。
  15. 【請求項15】 音声などの音に基づいて文書の検索を
    行なう文書検索方法であって、 第1の音を電気信号に変換して第1の文字パターンデー
    タを生成し、 第1の文字パターンデータから認識される語の尤度を決
    定する尤度情報に基づいて、前記第1の文字パターンデ
    ータに含まれると推定される語を第1の語抽出結果とし
    て抽出し、 第2の音を電気信号に変換して第2の文字パターンデー
    タを生成し、 第2の文字パターンデータから認識される語の尤度を決
    定する尤度情報に基づいて、前記第2の文字パターンデ
    ータに含まれると推定される語を第2の語抽出結果とし
    て抽出し、 前記第1の語抽出結果と前記第2の語抽出結果とを比較
    して新たな語抽出結果を生成し、 前記新たな語抽出結果に基づいて、文書を検索するため
    の検索条件を生成し、 前記検索条件に基づいて、文書を検索する、 ことを特徴とする文書検索方法。
JP11081120A 1999-03-25 1999-03-25 文書検索装置及び文書検索方法 Pending JP2000276482A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP11081120A JP2000276482A (ja) 1999-03-25 1999-03-25 文書検索装置及び文書検索方法
US09/512,214 US6622122B1 (en) 1999-03-25 2000-02-24 Document retrieving apparatus and document retrieving method
EP00104272A EP1039395A3 (en) 1999-03-25 2000-03-01 Document retrieving apparatus and document retrieving method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11081120A JP2000276482A (ja) 1999-03-25 1999-03-25 文書検索装置及び文書検索方法

Publications (1)

Publication Number Publication Date
JP2000276482A true JP2000276482A (ja) 2000-10-06

Family

ID=13737533

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11081120A Pending JP2000276482A (ja) 1999-03-25 1999-03-25 文書検索装置及び文書検索方法

Country Status (3)

Country Link
US (1) US6622122B1 (ja)
EP (1) EP1039395A3 (ja)
JP (1) JP2000276482A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006209022A (ja) * 2005-01-31 2006-08-10 Toshiba Corp 情報検索システム、方法及びプログラム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4172886B2 (ja) * 1999-10-08 2008-10-29 富士通株式会社 疑似クライアント装置、疑似クライアントプログラムを格納したコンピュータ可読媒体、及び、チャットシステム
US6915352B2 (en) * 2001-06-01 2005-07-05 Inventec Appliances Corp. Infrared transmission system with automatic character identification
FR2833789A1 (fr) * 2001-12-19 2003-06-20 France Telecom Dispositif et procede de transmission de documents par un reseau
US7668887B2 (en) * 2005-12-01 2010-02-23 Object Positive Pty Ltd Method, system and software product for locating documents of interest
US7389192B2 (en) * 2006-06-30 2008-06-17 International Business Machines Corporation Determining data signal jitter via asynchronous sampling

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2836159B2 (ja) 1990-01-30 1998-12-14 株式会社日立製作所 同時通訳向き音声認識システムおよびその音声認識方法
EP0645757B1 (en) * 1993-09-23 2000-04-05 Xerox Corporation Semantic co-occurrence filtering for speech recognition and signal transcription applications
US5642519A (en) * 1994-04-29 1997-06-24 Sun Microsystems, Inc. Speech interpreter with a unified grammer compiler
US5721902A (en) * 1995-09-15 1998-02-24 Infonautics Corporation Restricted expansion of query terms using part of speech tagging
US5754978A (en) * 1995-10-27 1998-05-19 Speech Systems Of Colorado, Inc. Speech recognition system
JP3758241B2 (ja) 1996-08-01 2006-03-22 三菱電機株式会社 音声情報検索装置
US6311182B1 (en) * 1997-11-17 2001-10-30 Genuity Inc. Voice activated web browser
US6233559B1 (en) * 1998-04-01 2001-05-15 Motorola, Inc. Speech control of multiple applications using applets
US6324512B1 (en) * 1999-08-26 2001-11-27 Matsushita Electric Industrial Co., Ltd. System and method for allowing family members to access TV contents and program media recorder over telephone or internet

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006209022A (ja) * 2005-01-31 2006-08-10 Toshiba Corp 情報検索システム、方法及びプログラム
US7818173B2 (en) 2005-01-31 2010-10-19 Kabushiki Kaisha Toshiba Information retrieval system, method, and program

Also Published As

Publication number Publication date
US6622122B1 (en) 2003-09-16
EP1039395A2 (en) 2000-09-27
EP1039395A3 (en) 2004-05-12

Similar Documents

Publication Publication Date Title
JP5697860B2 (ja) 情報検索装置,情報検索方法及びナビゲーションシステム
CN106663424B (zh) 意图理解装置以及方法
US20190370398A1 (en) Method and apparatus for searching historical data
JP3720068B2 (ja) 質問の転記方法及び装置
US5832428A (en) Search engine for phrase recognition based on prefix/body/suffix architecture
JP5066483B2 (ja) 言語理解装置
JP2848458B2 (ja) 言語翻訳システム
JP2004005600A (ja) データベースに格納された文書をインデックス付け及び検索する方法及びシステム
JP2007256836A (ja) 音声認識装置、音声認識方法および音声認識プログラム
JPWO2007097176A1 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
JP2004133880A (ja) インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法
EP2418589A1 (en) Retrieval device
KR20060070605A (ko) 영역별 언어모델과 대화모델을 이용한 지능형 로봇 음성인식 서비스 장치 및 방법
JP5073024B2 (ja) 音声対話装置
Hasan et al. A spell-checker integrated machine learning based solution for speech to text conversion
KR100704508B1 (ko) N-gram 네트워크를 이용하는 한국어 연속음성인식의언어모델 적응장치 및 그 방법
JP2000276482A (ja) 文書検索装置及び文書検索方法
JP2001229180A (ja) コンテンツ検索装置
JP2006106748A (ja) 音声認識の精度を改善するためのシステムおよび方法
JP5189413B2 (ja) 音声データ検索システム
JP2005257954A (ja) 音声検索装置、音声検索方法および音声検索プログラム
JP3059398B2 (ja) 自動通訳装置
Llitjós et al. Improving pronunciation accuracy of proper names with language origin classes
JPH0778183A (ja) デ−タベ−ス検索システム
JP2000056795A (ja) 音声認識装置

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060208

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060210

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081216

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090414