JP4866334B2 - 頻度補正装置とその方法、それらを用いた情報抽出装置と情報抽出方法、それらのプログラム - Google Patents
頻度補正装置とその方法、それらを用いた情報抽出装置と情報抽出方法、それらのプログラム Download PDFInfo
- Publication number
- JP4866334B2 JP4866334B2 JP2007306101A JP2007306101A JP4866334B2 JP 4866334 B2 JP4866334 B2 JP 4866334B2 JP 2007306101 A JP2007306101 A JP 2007306101A JP 2007306101 A JP2007306101 A JP 2007306101A JP 4866334 B2 JP4866334 B2 JP 4866334B2
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- information
- word
- correction
- statistical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
データベース2(以降、DBと略す)は、例えばコールセンターにおける通話音声を音声認識した結果の文書を、大量に記憶している。認識精度統計処理部4は、正しい文書、例えば、音声認識した音声の一部を人手で正確に書き起こした文書を入力とする。そして、正しい文書とDB2内の正しい文書に対応する認識結果の文書とを用いて、認識結果の文書を構成する各単語の確からしさを表わす統計数値情報を生成する(ステップS4、図2)。認識精度統計処理部4で生成された各単語の統計数値情報は、認識精度統計情報記憶部6に記憶される(ステップS6)。頻度修正部8は、各単語の出現頻度を表わす頻度情報を入力として、各単語の統計数値情報を認識精度統計情報記憶部6から検索し、頻度情報に統計数値情報を乗じた修正頻度情報を出力する(ステップS8)。
情報抽出装置は、データベースから情報を抽出する目的で用いられる。その機能構成例を図7に、その動作フローを図8に示す。また、情報抽出装置200の全体動作における各情報の一例を図9に示してその動作を説明する。情報抽出装置200は、上記した頻度補正装置100に、関連単語抽出部70と、頻度計数部72と、頻度情報記憶部74と、修正頻度情報記憶部76と、情報抽出処理部78とを追加して備える。なお、頻度補正装置100は、実施例1又は2の何れを用いても良い。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
Claims (8)
- 認識した文書を蓄積したデータベースと、
上記認識した文書の正しい文書を用いて、上記認識した文書を構成する各単語の確からしさを表わす統計数値情報を生成する認識精度統計処理部と、
上記各単語と上記統計数値情報とを記憶する認識精度統計情報記憶部と、
上記各単語の出現頻度を表わす頻度情報に上記統計数値情報を乗じた修正頻度情報を出力する頻度修正部と、
を具備し、
上記統計数値情報は、上記各単語が正しく認識された結果の回数を、上記各単語が認識結果に出現した回数で除した適合率であることを特徴とする頻度補正装置。 - 認識した文書を蓄積したデータベースと、
上記認識した文書の正しい文書を用いて、上記認識した文書を構成する各単語の確からしさを表わす統計数値情報を生成する認識精度統計処理部と、
上記各単語と上記統計数値情報とを記憶する認識精度統計情報記憶部と、
上記各単語の出現頻度を表わす頻度情報に上記統計数値情報を乗じた修正頻度情報を出力する頻度修正部と、
を具備し、
上記統計数値情報は、上記各単語が正しく認識された結果の回数を上記各単語が認識結果に出現した回数で除した適合率に、上記各単語が正しく認識された回数を上記各単語が正しく出現する回数で除した再現率の逆数を、乗算した値であることを特徴とする頻度補正装置。 - 請求項1又は2に記載した頻度補正装置と、
分析対象単語情報を入力として、認識した結果の文書を蓄積したデータベースから上記分析対象単語情報と関連する関連単語を抽出する関連単語抽出部と、
上記関連単語の出現頻度を数えて、上記関連単語の頻度情報を生成する頻度計数部と、
上記頻度計数部が生成する上記関連単語と上記頻度情報とを保存すると共に上記頻度補正装置に入力する頻度情報記憶部と、
上記頻度補正装置が出力する修正頻度情報を記憶する修正頻度情報記憶部と、
上記修正頻度情報の中の各単語を頻度順に検索し、頻度の高い単語を抽出情報として出力する情報抽出処理部と、
を具備する情報抽出装置。 - 認識精度統計処理部が、認識した文書の正しい文書を用いて、データベースに記憶された認識された文書を構成する各単語の確からしさを表わす統計数値情報を生成する認識精度統計処理過程と、
認識精度統計情報記憶部が、上記各単語と上記統計数値情報とを記憶する認識精度統計情報記憶過程と、
頻度修正部が、入力される上記各単語の出現頻度を表わす頻度情報に上記統計数値情報を乗じた修正頻度情報を出力する頻度修正過程と、
を含み、
上記統計数値情報は、上記単語が正しく認識された結果の回数を、上記単語が認識結果に出現した回数で除した適合率であることを特徴とする頻度補正方法。 - 認識精度統計処理部が、認識した文書の正しい文書を用いて、データベースに記憶された認識された文書を構成する各単語の確からしさを表わす統計数値情報を生成する認識精度統計処理過程と、
認識精度統計情報記憶部が、上記各単語と上記統計数値情報とを記憶する認識精度統計情報記憶過程と、
頻度修正部が、入力される上記各単語の出現頻度を表わす頻度情報に上記統計数値情報を乗じた修正頻度情報を出力する頻度修正過程と、
を含み、
上記統計数値情報は、上記単語が正しく認識された結果の回数を上記単語が認識結果に出現した回数で除した適合率に、上記単語が正しく認識された回数を上記単語が正しく出現する回数で除した再現率の逆数を、乗算した値であることを特徴とする頻度補正方法。 - 請求項4又は5に記載した頻度補正方法による頻度修正過程を含み、
関連単語抽出部が、分析対象単語情報を入力として認識した結果の文書を蓄積したデータベースから上記分析対象単語情報と関連する関連単語を抽出する関連単語抽出過程と、
頻度計数部が、上記関連単語の出現頻度を数えて、上記関連単語と頻度情報を生成する頻度計数過程と、
頻度情報記憶部が、頻度計数部が生成する上記関連単語と上記頻度情報とを保存すると共に上記頻度修正部に入力する頻度情報記憶過程と、
修正頻度情報記憶部が、上記頻度修正過程が出力する修正頻度情報を記憶する修正頻度情報記憶過程と、
情報抽出処理部が、上記修正頻度情報の中の各単語を頻度順に検索し、頻度の高い単語の情報を出力する情報抽出処理過程と、
を含む情報抽出方法。 - 請求項1又は2の何れかに記載された頻度補正装置としてコンピュータを機能させるためのプログラム。
- 請求項3に記載された情報抽出装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007306101A JP4866334B2 (ja) | 2007-11-27 | 2007-11-27 | 頻度補正装置とその方法、それらを用いた情報抽出装置と情報抽出方法、それらのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007306101A JP4866334B2 (ja) | 2007-11-27 | 2007-11-27 | 頻度補正装置とその方法、それらを用いた情報抽出装置と情報抽出方法、それらのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009128797A JP2009128797A (ja) | 2009-06-11 |
JP4866334B2 true JP4866334B2 (ja) | 2012-02-01 |
Family
ID=40819747
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007306101A Expired - Fee Related JP4866334B2 (ja) | 2007-11-27 | 2007-11-27 | 頻度補正装置とその方法、それらを用いた情報抽出装置と情報抽出方法、それらのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4866334B2 (ja) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08263587A (ja) * | 1995-03-20 | 1996-10-11 | Matsushita Electric Ind Co Ltd | 文書入力方法および文書入力装置 |
JP4340024B2 (ja) * | 2001-06-07 | 2009-10-07 | 日本放送協会 | 統計的言語モデル生成装置および統計的言語モデル生成プログラム |
JP4006239B2 (ja) * | 2002-02-21 | 2007-11-14 | 株式会社日立製作所 | 文書の検索方法および検索システム |
JP2004348552A (ja) * | 2003-05-23 | 2004-12-09 | Nippon Telegr & Teleph Corp <Ntt> | 音声文書検索装置および方法およびプログラム |
WO2005122016A1 (ja) * | 2004-06-10 | 2005-12-22 | Matsushita Electric Industrial Co., Ltd. | 入力補助装置、情報検索装置、入力補助方法、及びプログラム |
JP2006172379A (ja) * | 2004-12-20 | 2006-06-29 | Canon Marketing Japan Inc | 文字認識処理装置および文字認識処理方法およびプログラムおよび記録媒体 |
JP2006331354A (ja) * | 2005-05-30 | 2006-12-07 | Sharp Corp | 文字認識装置、文字認識方法、並びに、そのプログラムおよび記録媒体 |
-
2007
- 2007-11-27 JP JP2007306101A patent/JP4866334B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009128797A (ja) | 2009-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
He et al. | Discriminative learning for speech recognition: theory and practice | |
US8793130B2 (en) | Confidence measure generation for speech related searching | |
US8504367B2 (en) | Speech retrieval apparatus and speech retrieval method | |
US9984677B2 (en) | Bettering scores of spoken phrase spotting | |
US7590626B2 (en) | Distributional similarity-based models for query correction | |
US7739111B2 (en) | Pattern matching method and apparatus and speech information retrieval system | |
US8892437B1 (en) | Method and apparatus of providing semi-automated classifier adaptation for natural language processing | |
CN107229627B (zh) | 一种文本处理方法、装置及计算设备 | |
US20080270344A1 (en) | Rich media content search engine | |
JP5824829B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
US7401019B2 (en) | Phonetic fragment search in speech data | |
CN112232055B (zh) | 一种基于拼音相似度与语言模型的文本检测与纠正方法 | |
CN114154487A (zh) | 文本自动纠错方法、装置、电子设备及存储介质 | |
JP2019139010A (ja) | 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム | |
Ram et al. | Multilingual bottleneck features for query by example spoken term detection | |
JP5713963B2 (ja) | 音声認識単語追加装置とその方法とプログラム | |
Tobin et al. | Assessing asr model quality on disordered speech using bertscore | |
JP4866334B2 (ja) | 頻度補正装置とその方法、それらを用いた情報抽出装置と情報抽出方法、それらのプログラム | |
Besacier et al. | Word confidence estimation for speech translation | |
JP2011248107A (ja) | 音声認識結果検索方法とその装置とプログラム | |
CN114661862A (zh) | 基于语音数据的搜索方法、装置、计算机设备及存储介质 | |
JP6486789B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
CN114254628A (zh) | 一种语音转写中结合用户文本的快速热词提取方法、装置、电子设备及存储介质 | |
US20090099847A1 (en) | Template constrained posterior probability | |
JP2010197411A (ja) | 音声認識装置用言語モデル更新装置および音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100114 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110523 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110531 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110706 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110812 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110816 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110926 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111101 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111111 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141118 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4866334 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |