JP2005202165A - 音声認識システム - Google Patents

音声認識システム Download PDF

Info

Publication number
JP2005202165A
JP2005202165A JP2004008567A JP2004008567A JP2005202165A JP 2005202165 A JP2005202165 A JP 2005202165A JP 2004008567 A JP2004008567 A JP 2004008567A JP 2004008567 A JP2004008567 A JP 2004008567A JP 2005202165 A JP2005202165 A JP 2005202165A
Authority
JP
Japan
Prior art keywords
recognition
word string
word
rule
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004008567A
Other languages
English (en)
Inventor
Masanori Nakamura
正規 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced Media Inc
Original Assignee
Advanced Media Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced Media Inc filed Critical Advanced Media Inc
Priority to JP2004008567A priority Critical patent/JP2005202165A/ja
Publication of JP2005202165A publication Critical patent/JP2005202165A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】音声認識において、ディクテーションの中に含まれる単語が、他の部分のディクテーション結果からある条件を満たすことがわかる場合に、この条件を満たす単語のみが認識結果となるようにする。
【解決手段】音声認識システムは、ディクテーションの認識結果を解析してさらに緻密な認識処理を必要とする単語(列)を求め、この単語(列)の部分にかかる音声についてルールによる認識を行う。ルールによる音声認識の結果でディクテーションの認識結果を置換する。
【選択図】図1

Description

本発明は、音声認識システムに関するものである。
音声認識システムにおいて、使用者による自由な文の発声を対象とする場合、すなわちディクテーションシステムの場合には、単語連鎖の出現確率(Nグラム)に基づいて音声認識を行っている。
しかし、上記従来の技術では、発声全体にわたる解析が十分でなく、全体を解析すればある条件を満たすべき単語を認識結果とすべきことが明らかな場合にも、その条件を満たさない単語が認識結果となることがあった。例えば、「レストランで、えーと、甲州街道沿いにある、ミーナという店の電話番号が知りたい」という発声に対して、「ミーナという」に替えて「港区」が認識結果となることがあった。
特開2002−341898号公報
解決しようとする問題点は、ある条件を満たすべき単語を認識結果とすべき場面において、その条件を満たさない単語列が認識結果となる点である。
本発明は、初期認識単語列によって条件を満たすことが明らかになる部分を再認識対象単語列とし、これに対応して条件を満たす単語列のみを対象とするルールを用いた音声認識を行うため、条件を満たす単語列が認識結果となる。
請求項1の発明によれば、第1のステップの出力であるディクテーションの音声認識結果に対して、第2のステップにおいて全体を解析してある条件を満たすべき単語を認識結果とすべき場合を検出し、第3のステップにおいて満たすべき条件をルールとして決定し、第4のステップにおいてルールを用いて音声認識を再実行することができる。これにより、第2のステップにおいて検出された単語については、満たすべき条件に合ったもののみを認識結果とすることができる。
請求項2の発明によれば、第1のステップの出力であるディクテーションの音声認識結果に対して、第2のステップにおいて確信度が低い単語列を検出し、第3のステップにおいてこの検出された単語列が満たすべき条件をルールとして決定し、第4のステップにおいてルールを用いて音声認識を再実行することができる。これにより、第2のステップにおいて検出された単語については、満たすべき条件に合った限定された単語列を対象にして第4のステップの音声認識が実行され、高い認識精度を得ることができる。
以上、請求項1及び請求項2のいずれの発明においても、上記の例において、第2のステップにおいて「港区店」を検出し、第3のステップにおいて甲州街道沿いのレストランの名称及びその後に「という店」を付加したものをルールとし、第4のステップにおいて音声認識を再実行することにより、「港区店」を「ミーナという店」に修正して認識結果とすることができる。
なお、「ルール」とは、すべての単語連鎖に対してそれが出現するか否かを規定するものであり、ルールを用いた音声認識においては、出現すると規定された単語連鎖のみが認識結果となりえる。
請求項1の発明によれば、再認識対象単語を音声認識の使用用途に合わせて設計することができ、音声認識の使用用途に合致する認識結果を出力させることができる。
請求項2の発明によれば、確信度の小さい単語列について音声認識を再実行することにより、音声認識システムの認識精度を向上させることができる。
本発明は、初期認識単語列によって条件を満たすことが明らかになる部分を再認識対象単語列とし、これに対応して条件を満たす単語列のみを対象とするルールを用いた音声認識を行うため、条件を満たす単語列が認識結果となる。
請求項1の発明によれば、第1のステップの出力であるディクテーションの音声認識結果に対して、第2のステップにおいて全体を解析してある条件を満たすべき単語を認識結果とすべき場合を検出し、第3のステップにおいて満たすべき条件をルールとして決定し、第4のステップにおいてルールを用いて音声認識を再実行することができる。これにより、第2のステップにおいて検出された単語については、満たすべき条件に合ったもののみを認識結果とすることができる。
請求項2の発明によれば、第1のステップの出力であるディクテーションの音声認識結果に対して、第2のステップにおいて確信度が低い単語列を検出し、第3のステップにおいてこの検出された単語列が満たすべき条件をルールとして決定し、第4のステップにおいてルールを用いて音声認識を再実行することができる。これにより、第2のステップにおいて検出された単語については、満たすべき条件に合った限定された単語列を対象にして第4のステップの音声認識が実行され、高い認識精度を得ることができる。
以上、請求項1及び請求項2のいずれの発明においても、上記の例において、第2のステップにおいて「港区店」を検出し、第3のステップにおいて甲州街道沿いのレストランの名称及びその後に「という店」を付加したものをルールとし、第4のステップにおいて音声認識を再実行することにより、「港区店」を「ミーナという店」に修正して認識結果とすることができる。
なお、「ルール」とは、すべての単語連鎖に対してそれが出現するか否かを規定するものであり、ルールを用いた音声認識においては、出現すると規定された単語連鎖のみが認識結果となりえる。
図1は、請求項1及び請求項2の発明を同時に実施するような一実施例に係る音声認識システムの実施の形態を示す図である。
本実施例では、自動車の中で飲食店等の施設を案内するシステムのために音声による案内の要求を使用者がするものとし、音声1は「レストランで、えーと、甲州街道沿いにある、ミーナという店の電話番号が知りたい」という発声のものとする。
音声1が音声認識システム2に入力されると、それは音声記憶域251に記憶され、同時にディクテーションシステム21に入力される。ディクテーションシステム21は、Nグラム記憶域252の内容に基づいて音声認識を行い、その結果を単語列記憶域253に出力する。この時、単語列記憶域253は図2のAに示すようになっており、本説明においては「ミーナという」に替えて「港区」が認識結果となっているものとする。
再認識対象単語決定システム22は、単語列記憶域253を参照し、図2のAにおいて単語「港区」及び「店」の確信度が閾値よりも小さいので、「港区店」を再認識対象単語と決定し、これをルール決定システム24に通知する。ここで閾値は音声認識システムの使用目的及び使用環境などを考慮し実験的に定められるべきものであるが、本説明においては0.5であるとする。
ルール決定システム23は、単語列記憶域253を参照し、再認識対象単語とされた「港区店」に替えて認識対象となるべき単語列を求める。本実施例では、「レストラン」及び「甲州街道」があることから、案内対象施設を検索して甲州街道に近いレストランを認識対象とする。この際、レストラン名の後に「という店」という表現が付加されることを想定する。この結果を、ルール記憶域253に出力する。この時、ルール記憶域253は図3のようになっている。なお、図3において中かっこ({、})はその中の1単語を、小かっこ((、))はその単語が使用者の選択により付加される可能性を示す。
ルール音声認識システム24は、単語列記憶域253を参照して再認識対象音声の開始及び終了時刻を求め、求められた時刻に該当する音声を音声記憶域251から得、得られた音声に関してルール記憶域253に格納されたルールによる音声認識を行い、その結果に基づいて単語列記憶域253を更新する。この時、単語列記憶域253は図2のBに示すようになっており、「港区」が「ミーナという店」に更新された正しい認識結果となっている。
音声認識システム2は、単語列記憶域253を参照して、単語を認識結果3として出力する。
以上、本発明の実施例を詳述したが、本発明は前期実施例に限定されたものではない。そして、本発明は、特許請求の範囲に記載された事項を逸脱することがなければ、種々の設計変更を行うことが可能である。ルール決定システム23が再認識対象単語を決定する処理の詳細は、音声認識の使用用途によって定めることができる。
ディクテーションによって情報入力を行う際に、必須の情報の精度向上に適用できる。
本発明の一実施例に係る音声認識システムの実施の形態を示した説明図である。 単語列記憶域を示した説明図である。 ルール記憶域を示した説明図である。
符号の説明
1 音声
2 音声認識システム
21 ディクテーションシステム
22 再認識対象単語決定システム
23 ルール決定システム
24 ルール音声認識システム
251 音声記憶域
252 Nグラム記憶域
253 単語列記憶域
254 ルール記憶域
3 認識結果
41 初期認識単語列
42 再認識後の単語列

Claims (2)

  1. 使用者の自由な発声を受け付ける音声認識システム(ディクテーションシステム)において、使用者の発声に対して音声認識を行い文に変換して単語列(初期認識単語列)を出力する第1のステップと、上記第1のステップの出力である単語列からさらに緻密な認識処理を必要とする単語列(再認識対象単語列)を出力する第2のステップと、上記第1のステップの出力である単語列及び第2のステップの出力である単語列から第2のステップの単語列に対応する部分の音声(再認識対象音声)を認識処理する際に認識結果となりうる単語列の候補(ルール)を出力する第3のステップと、再認識対象音声について第3のステップの出力であるルールを用いて音声認識を行う第4のステップを少なくとも有する音声認識システム。
  2. 上記第1のステップが初期認識単語列を出力する際に各単語について音声認識の確からしさ(確信度)を出力し、第2のステップは確信度が閾値以下の単語列を再認識対象単語列として出力することを特徴とする、請求項1に記載の音声認識システム。
JP2004008567A 2004-01-15 2004-01-15 音声認識システム Pending JP2005202165A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004008567A JP2005202165A (ja) 2004-01-15 2004-01-15 音声認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004008567A JP2005202165A (ja) 2004-01-15 2004-01-15 音声認識システム

Publications (1)

Publication Number Publication Date
JP2005202165A true JP2005202165A (ja) 2005-07-28

Family

ID=34821851

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004008567A Pending JP2005202165A (ja) 2004-01-15 2004-01-15 音声認識システム

Country Status (1)

Country Link
JP (1) JP2005202165A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010024052A1 (ja) * 2008-08-27 2010-03-04 日本電気株式会社 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム
WO2018135303A1 (ja) * 2017-01-18 2018-07-26 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
JP2023007960A (ja) * 2021-07-02 2023-01-19 株式会社アドバンスト・メディア 情報処理装置、情報処理システム、情報処理方法及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0619491A (ja) * 1992-06-30 1994-01-28 Sanyo Electric Co Ltd 音声認識装置
JPH075891A (ja) * 1993-06-16 1995-01-10 Canon Inc 音声対話方法および装置
JPH09274495A (ja) * 1996-04-09 1997-10-21 Fuji Xerox Co Ltd 音声認識装置
JP2000082114A (ja) * 1998-09-04 2000-03-21 Toshiba Corp 情報解析装置、情報解析方法及び情報解析プログラムを記録した記録媒体
JP2003085197A (ja) * 2000-10-13 2003-03-20 Nippon Telegr & Teleph Corp <Ntt> 音声入力された複合名詞の検索装置、検索方法およびデータベース

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0619491A (ja) * 1992-06-30 1994-01-28 Sanyo Electric Co Ltd 音声認識装置
JPH075891A (ja) * 1993-06-16 1995-01-10 Canon Inc 音声対話方法および装置
JPH09274495A (ja) * 1996-04-09 1997-10-21 Fuji Xerox Co Ltd 音声認識装置
JP2000082114A (ja) * 1998-09-04 2000-03-21 Toshiba Corp 情報解析装置、情報解析方法及び情報解析プログラムを記録した記録媒体
JP2003085197A (ja) * 2000-10-13 2003-03-20 Nippon Telegr & Teleph Corp <Ntt> 音声入力された複合名詞の検索装置、検索方法およびデータベース

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010024052A1 (ja) * 2008-08-27 2010-03-04 日本電気株式会社 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム
JP5447382B2 (ja) * 2008-08-27 2014-03-19 日本電気株式会社 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム
WO2018135303A1 (ja) * 2017-01-18 2018-07-26 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
JPWO2018135303A1 (ja) * 2017-01-18 2019-11-07 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
US11308951B2 (en) 2017-01-18 2022-04-19 Sony Corporation Information processing apparatus, information processing method, and program
JP7107229B2 (ja) 2017-01-18 2022-07-27 ソニーグループ株式会社 情報処理装置および情報処理方法、並びにプログラム
JP2023007960A (ja) * 2021-07-02 2023-01-19 株式会社アドバンスト・メディア 情報処理装置、情報処理システム、情報処理方法及びプログラム

Similar Documents

Publication Publication Date Title
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
US10152971B2 (en) System and method for advanced turn-taking for interactive spoken dialog systems
US10917758B1 (en) Voice-based messaging
US20230216927A1 (en) Sender and recipient disambiguation
US10037758B2 (en) Device and method for understanding user intent
JP4542974B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP5951161B2 (ja) 音声認識装置及び音声認識方法
CN111292740B (zh) 语音辨识系统及其方法
JP2004258658A (ja) 単語間音素情報を利用した連続音声認識方法および装置
JP2012226068A (ja) 対話装置
JP2007041319A (ja) 音声認識装置および音声認識方法
JP2000221990A (ja) 音声認識装置
CN105468582A (zh) 一种基于人机交互的数字串的纠正方法及装置
JP2009025538A (ja) 音声対話装置
JP5447373B2 (ja) 言語モデルスコア先読み値付与装置およびその方法ならびにプログラム記録媒体
JP2011164175A (ja) 言語モデル生成装置、そのプログラムおよび音声認識システム
JP2010091675A (ja) 音声認識装置
EP3005152B1 (en) Systems and methods for adaptive proper name entity recognition and understanding
JP4992925B2 (ja) 音声対話装置及びプログラム
US11430434B1 (en) Intelligent privacy protection mediation
JP4826719B2 (ja) 音声認識システム、音声認識方法、および音声認識プログラム
KR20120052591A (ko) 연속어 음성인식 시스템에서 오류수정 장치 및 방법
JP2004271895A (ja) 複数言語音声認識システムおよび発音学習システム
JP2005202165A (ja) 音声認識システム
JP2015118354A (ja) 音声認識装置および音声認識方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070109

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091027

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091102

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20091204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091228

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100824