JP4797307B2 - 音声認識装置及び音声認識方法 - Google Patents

音声認識装置及び音声認識方法 Download PDF

Info

Publication number
JP4797307B2
JP4797307B2 JP2001289263A JP2001289263A JP4797307B2 JP 4797307 B2 JP4797307 B2 JP 4797307B2 JP 2001289263 A JP2001289263 A JP 2001289263A JP 2001289263 A JP2001289263 A JP 2001289263A JP 4797307 B2 JP4797307 B2 JP 4797307B2
Authority
JP
Japan
Prior art keywords
recognition
word
unit
speech
correct
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001289263A
Other languages
English (en)
Other versions
JP2003099091A (ja
Inventor
孝 友枝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2001289263A priority Critical patent/JP4797307B2/ja
Publication of JP2003099091A publication Critical patent/JP2003099091A/ja
Application granted granted Critical
Publication of JP4797307B2 publication Critical patent/JP4797307B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識装置及び音声認識方法に関するものであり、特に誤認識結果の修正を迅速、かつ高精度に行うことが出きる音声認識装置及び音声認識方法に関する。
【0002】
【従来の技術】
従来の音声認識装置における誤認識単語の修正方法の例が、「自分の声でパソコンが動く(村上 弘子著 1999年8月10日 株式会社NECクリエイティブ発行)」の22〜25ページに記載されている。この従来技術では、誤認識した単語の修正として「認識結果候補を複数列挙し、いずれかをユーザが選択する」、「再発声及び再認識処理を行うことで誤認識結果を正解単語と置換する」、「誤認識された箇所の正解結果をキーボードで入力することにより修正する」という方法が用いられている。
【0003】
一方、文字入力装置や文字認識装置においては、入力したい文字列の全てをユーザが打ち込まなくとも、文字列入力装置側が文字列の補完を行う「補完機能」が発明されており、その従来例が「http://www.hlla.is.tsukuba.ac.jp/~yas/ipe/nitiniti2-enshu-1996/1996-10-21/unix-completion.html」に記載されている。これは、ユーザが入力した文字列に対応する正解候補文字列だけを表示、選択できるものであり、文字列入力途中で候補が少数又は一意に決定された際に、文字列を全て入力しなくても正解候補を選択できるという機能である。
【0004】
【発明が解決しようとする課題】
上述した従来の音声認識装置は、認識結果候補に正解がない場合、「再発声を行う」、「正解をキーボードで入力した後、漢字変換を行う」などのユーザへの負担が大きかった。また、従来の文字入力装置等における補完機能では、正解文字列を全て打ち込まなくてはよいものの、候補が多く存在する場合、例えば音声認識のように類似単語が数百以上存在する場合、依然として多くの文字列を入力する必要があった。
【0005】
本発明の目的は、上記の従来技術の問題点を回避しつつ、ユーザの入力した正解文字列を利用し、バックアップ辞書も含めた認識辞書を用いて、ユーザの発声した誤認識された音声データに対して再認識処理を行うことにより、ユーザの再発声を必要としない、ユーザへの負担の軽く、迅速かつ高精度な認識結果の修正機能及び補完機能を備えた音声認識装置を提供することにある。
【0006】
【課題を解決するための手段】
本願の第1の発明は、音声認識装置において、入力された音声を記録する音声記憶部と、認識単語辞書情報を持つ認識辞書部と、予め用意された文法情報及び前記認識辞書部を用いて前記音声記憶部に記録されている音声に対し認識処理を行うサーチ処理部と、前記サーチ処理部の認識処理による認識結果候補単語列を認識結果候補表示部に渡すとともに、正解文字記憶部から正解文字列を通知された場合通知された前記正解文字列で始まる候補単語列のみを認識対象単語列として前記音声記憶部に記録されている前記音声を用いて音声認識を行う再認識処理を前記サーチ処理部に要求するサーチ制御部と、前記認識結果候補単語列を表示する認識結果候補表示部と、正解単語列の文字を一文字ずつ入力する正解文字入力部と、前記認識結果候補表示部に表示されている前記認識結果候補単語列の中に正解単語列が含まれていない場合に前記正解文字入力部から入力された前記正解文字列を記録し前記サーチ制御部に通知する前記正解文字記憶部とを含んで構成されることを特徴とする。
【0007】
本願の第2の発明は、第1の発明の前記サーチ処理部は、前記再認識処理時には前記認識辞書部よりも多くの単語を有するバックアップ辞書を利用して前記音声認識を行うことを特徴とする。
【0008】
本願の第3の発明は、第1の発明の前記正解文字入力部における前記文字入力終了の通知を受けて未知語単語登録要求を出力する前記サーチ制御部と、前記未知語単語登録要求を受けて入力された未知語単語により前記正解文字記憶部に記録されている前記文字列の前記認識辞書部への単語登録を行う未知語単語登録部を含んで構成されることを特徴とする。
【0009】
本願の第4の発明は、音声認識方法において、入力された音声を記録する音声記憶部と認識単語辞書情報を持つ認識辞書部とを予め備え、予め用意された文法情報及び前記認識辞書部を用いて前記音声記憶部に記録されている音声に対し認識処理を行い、前記認識処理による認識結果である認識結果候補単語列を予め備えた認識結果候補表示部に表示し、前記認識結果候補表示部に表示されている前記認識結果候補単語列の中に正解単語列が含まれていない場合に予め用意された正解文字入力部から前記正解単語列の文字が一文字ずつ入力されると、入力された前記正解文字列を予め用意された正解文字記憶部に記録し、記録された前記正解文字記憶部における前記正解文字列で始まる候補単語列のみを認識対象単語列として前記音声記憶部に記録されている前記音声を用いて音声認識を行う再認識処理を行うことを特徴とする。
【0010】
本願の第5の発明は、第4の発明の前記再認識処理時には前記認識辞書部よりも多くの単語を有するバックアップ辞書を利用して前記音声認識を行うことを特徴とする。
【0011】
本願の第6の発明は、第4の発明の前記正解文字入力部における前記文字入力終了の通知を受けて未知語単語登録要求を出力し、前記未知語単語登録要求に応じて入力された未知語単語を前記正解文字記憶部に記録されている前記文字列について前記認識辞書部への単語登録を行うことを特徴とする。
【0012】
【発明の実施の形態】
次に、本発明の実施の形態について図面を参照して詳細に説明する。
【0013】
図1は、本発明の一実施の形態を示す音声認識装置のブロック図である。
【0014】
図1を参照すると、本発明の音声認識装置は、音声記憶部1と、認識辞書部2と、サーチ処理部3と、サーチ制御部4と、認識結果候補表示部5と、候補選択入力部6と、正解文字入力部7と、正解文字記憶部8と、未知語単語登録部9と、バックアップ辞書部10とから構成される。
【0015】
音声記憶部1は入力された音声を記録する。
【0016】
認識辞書部2は認識単語辞書情報を持つ。
【0017】
サーチ処理部3は自然言語文法、統計言語モデル又はネットワーク文法などの文法情報及び認識辞書部2を用いて音声記憶部1に記録されている音声に対し認識処理を行う。
【0018】
サーチ制御部4はサーチ処理部3に入力された音声の認識処理を行うよう要求し、認識結果候補単語列を認識結果候補表示部5に渡すとともに、正解文字記憶部8から正解文字列を通知された場合、通知された正解文字列で始まる候補単語列のみを認識結果候補表示部に表示し、候補単語列を全て認識結果候補表示部に表示しても、まだ認識結果候補表示部に空きがある場合や、候補単語列の個数が一定数以下になってしまった場合、正解文字記憶部8から通知された正解文字列で始まる単語列のみを認識対象単語列とし、認識辞書としてバックアップ辞書部10に記録されている認識辞書も利用しながら音声記憶部1に記録されている音声に対して再度音声認識を行うようサーチ処理部3に指示し、すべての正解文字列の入力完了の通知を受けてユーザに未知語単語登録の指示を出力する。
【0019】
認識結果候補表示部5は認識結果の候補単語列をユーザに通知する。
【0020】
候補選択入力部6は認識結果候補表示部5に表示されている候補単語列の中に正解がある場合、ユーザから通知された正解の候補単語を確定する。
【0021】
正解文字入力部7は認識結果候補表示部5に正解単語列が含まれていない場合、ユーザが正解単語列の文字を一文字ずつ入力するためのものである。
【0022】
正解文字記憶部8は正解文字入力部7から入力された正解文字列を追加記録し、今までに入力された正解文字列をサーチ制御部4に通知する。
【0023】
未知語単語登録部9はユーザによる未知語単語登録要求を受けて正解文字記憶部8に記録されている文字列の単語登録を行う。
【0024】
バックアップ辞書部10は認識辞書部2における認識単語辞書情報だけでなく、固有名詞や専門用語など、より多くの認識単語辞書情報を有する。
【0025】
次に、図2を参照しながら本発明の音声認識装置の動作ついて説明する。
(ステップ1):入力された音声を音声記憶部1に記録する。
(ステップ2):サーチ制御部4は、サーチ処理部3に入力された音声の認識処理を行うよう要求する。サーチ処理部3は、自然言語文法、統計言語モデル又はネットワーク文法などの文法情報及び認識単語辞書情報を持つ認識辞書部2を用いて、音声記憶部1に記録されている音声に対し、認識処理を行う。
(ステップ3):サーチ処理部3は認識処理が終了すると、認識結果の候補単語列をサーチ制御部4に渡す。サーチ制御部4は認識結果候補単語列を認識結果候補表示部5に渡し、認識結果の候補単語列をユーザに通知する。
(ステップ4):認識結果候補表示部5に表示されている候補単語列の中に正解がある場合ステップ5に行き、認識結果候補表示部5に表示されている候補単語列の中に正解がない場合ステップ7に行く。
(ステップ5)、(ステップ6):ユーザは候補選択入力部6に第何位候補が正解であるかを通知し、単語を確定することができる。
【0026】
また、第一候補が正解の場合には、そのまま次の発声を行うことにより、候補選択入力部に何も入力しなくても、サーチ制御部4は第一位候補が正解であると判断し、次の音声の処理を行うことができる。上記の2つのどちらかに該当する場合、音声記憶部1に記録されている音声の認識処理は終了となる。
(ステップ7):ユーザが正解文字入力部に全ての文字列を入力したのでなければステップ8に行き、ユーザが正解文字入力部に全ての文字列を入力したことを通知すると、ステップ13以降を実行する。
(ステップ8):ユーザは正解文字入力部7に正解単語列の文字入力を一文字ずつ行う。
【0027】
但し、認識結果候補表示部5に途中まで正解文字列の含まれている単語列候補がある場合、ユーザはどこまでが正解であるかを指定することにより、先頭から途中までの複数文字の入力を一気に行うこともできる。
(ステップ9):正解文字入力部7は正解文字記憶部8に、正解文字列を追加記録する。正解文字記憶部8は、今までに入力された正解文字列をサーチ制御部4に通知する。
(ステップ10):サーチ制御部4は通知された正解文字列で始まる候補単語列のみを認識結果候補表示部5に表示する。
(ステップ11):候補単語列を全て認識結果候補表示部5に表示しても、まだ認識結果候補表示部に空きがある場合や、候補単語列の個数が一定数以下になってしまった場合などには、ステップ12を実行する。そうでない場合、ステップ8に戻る。
(ステップ12):サーチ制御部4は、サーチ処理部3に対し正解文字記憶部から通知された正解文字列で始まる単語列のみを認識対象単語列とし、音声記憶部1に記録されている音声に対して再度音声認識を行うよう指示する。この際、認識辞書としてバックアップ辞書部10に記録されている認識辞書も利用することにより、最初の認識処理時よりも多くの語彙に対して認識処理を行う。このため、ユーザがバックアップ辞書10に登録されている単語を発声していた場合には、高精度かつ迅速な候補修正が可能となる。再認識処理による新しい認識結果の候補単語列を求め、ステップ3に戻る。
(ステップ13)〜(ステップ15):サーチ制御部4は、ユーザが入力した文字列に該当する単語列を認識結果として得ることができなかったのは、ユーザが認識辞書に登録されていない未知語を入力したためと判断し、ユーザに単語登録を行うよう通知し、未知語単語登録部9により正解文字記憶部8に記録されている文字列の未知語単語登録を行う。
【0028】
【発明の効果】
以上説明したように、本発明は、ユーザの入力した正解文字列を利用し、バックアップ辞書も含めた認識辞書を用いて、ユーザの発声した誤認識された音声データに対して再認識処理を行うことにより、ユーザの再発声を必要としない、ユーザへの負担の軽く、迅速かつ高精度な認識結果の修正機能及び補完機能を備えた音声認識装置を提供することが出来る効果がある。
【図面の簡単な説明】
【図1】本発明の一実施の形態を示す音声認識装置のブロック図である。
【図2】図1に示す本発明の音声認識装置の動作フロー図である。
【符号の説明】
1 音声記憶部
2 認識辞書部
3 サーチ処理部
4 サーチ制御部
5 認識結果候補表示部
6 候補選択入力部
7 正解文字入力部
8 正解文字記憶部
9 未知語単語登録部
10 バックアップ辞書部

Claims (6)

  1. 音声認識装置において、入力された音声を記録する音声記憶部と、認識単語辞書情報を持つ認識辞書部と、予め用意された文法情報及び前記認識辞書部を用いて前記音声記憶部に記録されている音声に対し認識処理を行うサーチ処理部と、前記サーチ処理部の認識処理による認識結果候補単語列を認識結果候補表示部に渡すとともに、正解文字記憶部から正解文字列を通知された場合通知された前記正解文字列で始まる候補単語列のみを認識対象単語列として前記音声記憶部に記録されている前記音声を用いて音声認識を行う再認識処理を前記サーチ処理部に要求するサーチ制御部と、前記認識結果候補単語列を表示する認識結果候補表示部と、正解単語列の文字を一文字ずつ入力する正解文字入力部と、前記認識結果候補表示部に表示されている前記認識結果候補単語列の中に正解単語列が含まれていない場合に前記正解文字入力部から入力された前記正解文字列を記録し前記サーチ制御部に通知する前記正解文字記憶部とを含んで構成されることを特徴とする音声認識装置。
  2. 前記サーチ処理部は、前記再認識処理時には前記認識辞書部よりも多くの単語を有するバックアップ辞書を利用して前記音声認識を行うことを特徴とする請求項1記載の音声認識装置。
  3. 前記正解文字入力部における前記文字入力終了の通知を受けて未知語単語登録要求を出力する前記サーチ制御部と、前記未知語単語登録要求を受けて入力された未知語単語により前記正解文字記憶部に記録されている前記文字列の前記認識辞書部への単語登録を行う未知語単語登録部を含んで構成されることを特徴とする請求項1記載の音声認識装置。
  4. 音声認識方法において、入力された音声を記録する音声記憶部と認識単語辞書情報を持つ認識辞書部とを予め備え、予め用意された文法情報及び前記認識辞書部を用いて前記音声記憶部に記録されている音声に対し認識処理を行い、前記認識処理による認識結果である認識結果候補単語列を予め備えた認識結果候補表示部に表示し、前記認識結果候補表示部に表示されている前記認識結果候補単語列の中に正解単語列が含まれていない場合に予め用意された正解文字入力部から前記正解単語列の文字が一文字ずつ入力されると、入力された前記正解文字列を予め用意された正解文字記憶部に記録し、記録された前記正解文字記憶部における前記正解文字列で始まる候補単語列のみを認識対象単語列として前記音声記憶部に記録されている前記音声を用いて音声認識を行う再認識処理を行うことを特徴とする音声認識方法。
  5. 前記再認識処理時には前記認識辞書部よりも多くの単語を有するバックアップ辞書を利用して前記音声認識を行うことを特徴とする請求項4記載の音声認識方法。
  6. 前記正解文字入力部における前記文字入力終了の通知を受けて未知語単語登録要求を出力し、前記未知語単語登録要求に応じて入力された未知語単語を前記正解文字記憶部に記録されている前記文字列について前記認識辞書部への単語登録を行うことを特徴とする請求項4記載の音声認識方法。
JP2001289263A 2001-09-21 2001-09-21 音声認識装置及び音声認識方法 Expired - Fee Related JP4797307B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001289263A JP4797307B2 (ja) 2001-09-21 2001-09-21 音声認識装置及び音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001289263A JP4797307B2 (ja) 2001-09-21 2001-09-21 音声認識装置及び音声認識方法

Publications (2)

Publication Number Publication Date
JP2003099091A JP2003099091A (ja) 2003-04-04
JP4797307B2 true JP4797307B2 (ja) 2011-10-19

Family

ID=19111780

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001289263A Expired - Fee Related JP4797307B2 (ja) 2001-09-21 2001-09-21 音声認識装置及び音声認識方法

Country Status (1)

Country Link
JP (1) JP4797307B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4709887B2 (ja) * 2008-04-22 2011-06-29 株式会社エヌ・ティ・ティ・ドコモ 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61239378A (ja) * 1985-04-16 1986-10-24 Toshiba Corp 認識処理装置
JPH02163874A (ja) * 1988-12-16 1990-06-25 Nippon Telegr & Teleph Corp <Ntt> 単語辞書作成方式
JP2000056795A (ja) * 1998-08-03 2000-02-25 Fuji Xerox Co Ltd 音声認識装置

Also Published As

Publication number Publication date
JP2003099091A (ja) 2003-04-04

Similar Documents

Publication Publication Date Title
US5787230A (en) System and method of intelligent Mandarin speech input for Chinese computers
TWI532035B (zh) 語言模型的建立方法、語音辨識方法及電子裝置
JP7200405B2 (ja) 音声認識のためのコンテキストバイアス
KR101109265B1 (ko) 텍스트 입력 방법
US6876967B2 (en) Speech complementing apparatus, method and recording medium
JP2002116796A (ja) 音声処理装置、音声処理方法及び記憶媒体
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
JP2011254553A (ja) 小型キーパッド用日本語入力メカニズム
JP3476007B2 (ja) 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体
TW201517015A (zh) 聲學模型的建立方法、語音辨識方法及其電子裝置
KR20060037228A (ko) 음성인식을 위한 방법, 시스템 및 프로그램
JP2007041319A (ja) 音声認識装置および音声認識方法
JP4797307B2 (ja) 音声認識装置及び音声認識方法
JP3762300B2 (ja) テキスト入力処理装置及び方法並びにプログラム
JP2002207728A (ja) 表音文字生成装置及びそれを実現するためのプログラムを記録した記録媒体
JP4924148B2 (ja) 発音学習支援装置及び発音学習支援プログラム
JP2020030379A (ja) 認識結果補正装置、認識結果補正方法、およびプログラム
US6327560B1 (en) Chinese character conversion apparatus with no need to input tone symbols
JPH05119793A (ja) 音声認識方法及び装置
US11809831B2 (en) Symbol sequence converting apparatus and symbol sequence conversion method
JP4749438B2 (ja) 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム
JPH04232997A (ja) 音声認識装置における認識結果表示方式
JPH1063651A (ja) 中国語入力装置
JP3700743B2 (ja) 記録媒体および文字入力装置
JP2000187497A (ja) 音声による言語入力装置

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20050317

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20070118

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20080612

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080812

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20090512

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100903

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100928

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110705

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20110705

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110718

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140812

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees