JP2001306091A

JP2001306091A - 音声認識システムおよび単語検索方法

Info

Publication number: JP2001306091A
Application number: JP2000125067A
Authority: JP
Inventors: Tetsuya Takeji; 徹也武次
Original assignee: NEC Software Kobe Ltd
Current assignee: NEC Software Kobe Ltd
Priority date: 2000-04-26
Filing date: 2000-04-26
Publication date: 2001-11-02

Abstract

(57)【要約】【課題】音声認識された文字列の修正を簡単な操作で
行なう。【解決手段】ディクテーション用辞書１３にはディク
テーション認識のための単語が予め登録されている。話
者が発するディクテーション音声は音声入力装置１１に
取り込まれ、音声認識部１２はそれを解析し、ディクテ
ーション用辞書１３を参照して文字列に変換する。単語
登録／検索処理部１５は、それを表示装置１６に表示す
る。同時に、表示された文字列に含まれるすべての単語
を検索用コマンド辞書１４に登録する。次に、話者が表
示装置１６の表示を見て、文字列を修正するときには、
当該音声を発すると、音声認識部１２はそれを解析し、
検索用コマンド辞書１４を参照して文字列に変換する。
単語登録／検索処理部１５は、変換された文字列の表示
装置１６における表示位置を指摘する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識、特に、
ディクテーション（dictation：口述）入力後に音声認
識結果を訂正等するのに好適な音声認識システムおよび
単語検索方法に関する。

【０００２】

【従来の技術】この種の従来技術の一例として、特開平
1-237597号公報に記載された「音声認識訂正装置」を挙
げることができる。この装置は、入力音声の成分を分析
する音響分析部と、音響分析部から出力された最初の入
力音声を第１の候補に基づいて認識する音声認識部と、
音声認識部の出力を表示する手段と、前記最初の入力音
声を記憶するとともに、次に訂正部分だけの音声が再入
力されたときそれが最初の入力音声のどの部分であるか
を判別し、訂正部分について次の候補を音声認識部に出
力する音声スポッティング部と、表示装置で表示された
次の候補が入力音声に合致している場合に入力音声の認
識を確定する手段とを構成要素とする。この結果、音声
で入力され表示された文字列文章中に認識誤りがあった
場合に、使用者は、誤認識部分の始端および終端をカー
ソルによって指示するという繁雑な操作を行なわずに音
声の認識訂正を行なえるようになる。

【０００３】

【発明が解決しようとする課題】しかしながら、上述し
た従来技術では、使用者が音声の認識訂正をするときに
は、訂正キーを押下後に、訂正部分だけの音声を再入力
するようにしているため、訂正するときの操作（訂正キ
ー押下）が面倒であるという問題点がある。

【０００４】本発明の目的は、音声認識の誤り訂正を簡
単な操作で行なえる音声認識システムおよび単語検索方
法を提供することにある。

【０００５】

【課題を解決するための手段】第１の本発明の音声認識
システムは、ディクテーション入力された音声から認識
した文字列をすべて単語単位で検索用コマンドとして辞
書に登録しておき、該単語を音声入力することによって
前記辞書から対応する単語を検索できるようにしたこと
を特徴とする。

【０００６】第２の本発明の音声認識システムは、ディ
クテーション認識のための単語が予め登録されているデ
ィクテーション用辞書（１３）と、検索用コマンドが登
録される検索用コマンド辞書（１４）と、話者が発する
ディクテーション音声または検索音声を取り込む音声入
力装置（１１）と、該取り込まれた音声を解析し前記デ
ィクテーション用辞書（１３）または前記検索用コマン
ド辞書（１４）を参照して文字列に変換する音声認識部
（１２）と、前記ディクテーション用辞書を参照して変
換された文字列を表示するための表示装置（１６）と、
該表示を行なうとともに、表示された文字列に含まれる
すべての単語を前記検索用コマンド辞書（１４）に登録
し、また前記検索用コマンド辞書（１４）を参照して変
換された文字列の前記表示における位置を指摘する単語
登録／検索処理部（１５）とを含むことを特徴とする。

【０００７】前記単語登録／検索処理部（１５）は、前
記音声認識部（１２）からディクテーションの認識結果
通知を受け付けるディクテーション結果受付け部（１５
１）と、前記音声認識部（１２）から検索コマンドの認
識結果通知を受け付ける検索用コマンド結果受付け部
（１５２）と、ディクテーション認識の結果として通知
された文字列に含まれるすべての単語について、単語単
位でそれぞれ表記情報および読み方情報と、前記表示装
置における表示開始位置情報および表示終了位置情報と
を保持する単語情報データベース部（１５３）と、該単
語情報データベース部（１５３）に保持している表記情
報および読み方情報を音声で検索できるように、単語ご
とに前記検索用コマンド辞書に登録する辞書登録部（１
５４）と、前記検索用コマンド結果受付け部（１５２）
に通知された検索コマンドの読み方情報をキーとして前
記単語情報データベース部（１５３）を参照し単語の表
示位置を検索する単語検索部（１５５）と、前記表示装
置（１６）における該単語の表示位置にカーソルを位置
付ける単語位置付け部（１５６）とで構成されることを
特徴とする。

【０００８】なお、前記音声認識部は、発声される音声
の連続性によって、前記ディクテーション音声と検索音
声を区別する。また、前記検索用コマンド辞書に単語を
登録するときに所定の語を付加しておき、前記検索音声
を発声するときには該所定の語を付加することによっ
て、前記ディクテーション音声と検索音声を区別しても
よい。

【０００９】本発明では、ディクテーション認識のため
の単語をディクテーション用辞書に予め登録しておく。
そして、話者がディクテーション音声を発するとそれを
取り込む。取り込んだ音声を解析しディクテーション用
辞書を参照して文字列に変換し、変換された文字列を表
示装置に表示する。また、表示された文字列に含まれる
すべての単語を検索用コマンド辞書に登録する。次に、
話者が検索音声を発するとそれを取り込み、取り込んだ
音声を解析し検索用コマンド辞書を参照して文字列に変
換する。最後に、変換された文字列の表示装置における
表示位置を指摘する。このように、本発明による単語検
索方法は、ディクテーション入力している文章の認識し
たすべての単語を検索用コマンド辞書に検索キーとして
登録し、ディクテーション入力後の単語を音声により検
索を可能にするものである。

【００１０】

【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。

【００１１】図１を参照すると、本発明の一実施の形態
は、話者が発する音声を取り込む音声入力装置１１と、
入力された音声を解析し文字列に変換する音声認識部１
２と、音声入力装置１１から取り込んだ音声を音声認識
部１２が文字列に変換するために参照するディクテーシ
ョン用辞書１３と、ディクテーション認識の結果として
表示されている文字列を音声認識部１２が検索コマンド
として認識するために参照する検索用コマンド辞書１４
と、音声認識部１２から通知される認識した文字列を処
理する単語登録／検索処理部１５と、ディクテーション
認識の結果を表示する表示装置１６とを含む。ディクテ
ーション用辞書１３には、ディクテーション認識のため
の単語が予め登録されている。また、検索用コマンド辞
書１４には、ディクテーション入力された音声に含まれ
る単語がすべて登録される。

【００１２】単語登録／検索処理部１５は、音声認識部
１２からディクテーションの認識結果通知を受け付ける
ためのディクテーション結果受付け部１５１と、音声認
識部１２から検索キーの認識結果通知を受け付けるため
の検索用コマンド結果受付け部１５２と、ディクテーシ
ョン認識の結果として通知されたすべての単語につい
て、単語単位でそれぞれ表記情報および読み方情報と、
表示装置１６に表示した時の表示開始位置情報および表
示終了位置情報を保持する単語情報データベース部１５
３と、単語情報データベース部１５３に保持している表
記情報および読み方情報を音声で検索できるように、単
語ごとに検索用コマンド辞書１４に登録する辞書登録部
１５４と、検索用コマンド結果受付け部１５２に通知さ
れた検索コマンドの読み方情報をキーとして単語情報
データベース部１５３を参照し単語の表示位置を検索す
る単語検索部１５５と、単語検索部１５５が検索した単
語表示位置にカーソルを位置付ける単語位置付け部１５
６とを備えている。

【００１３】次に、図１および図２を参照して本実施の
形態の動作について詳細に説明する。

【００１４】先ず、話者が音声を発すると、その音声は
音声入力装置１１に取り込まれる（図２のステップＡ
１）。そして、音声入力装置１１から入力された音声
は、音声認識部１２においてディクテーション用辞書１
３または検索用コマンド辞書１４を参照して文字列に変
換される（ステップＡ１およびステップＡ２）。音声認
識部１２がディクテーション用辞書１３と検索用コマン
ド辞書１４のいずれを参照するかは、入力される音声が
ディクテーション音声であるか否かによる。そのための
方法の一つは、ディクテーションの場合には話者が連続
して音声入力し、検索の場合には途切れ途切れに単語を
入力するようにするやり方である。他の有力な方法は後
述する。

【００１５】音声認識部１２は、ディクテーション用辞
書１３を参照して音声を変換した場合にはディクテーシ
ョン結果受付け部１５１に認識結果を通知し、検索用コ
マンド辞書１４を参照して音声を変換した場合には検索
用コマンド結果受付け部１５２に認識結果を通知する。
それにより、ディクテーション結果受付け部１５１に認
識結果が通知された場合にはディクテーション認識結果
であると判断することが可能である（図２のステップＡ
３）。

【００１６】ディクテーション結果受付け部１５１に通
知されたディクテーション認識結果には表記情報だけで
はなく読み方情報が付加されているので、単語情報デー
タベース部１５３でディクテーション認識したすべての
単語について、表記情報および読み方情報と、表示装置
１６に出力した時の表示開始位置および表示終了位置と
を単語ごとに関連付けて単語情報データベース部１５３
で保持する（ステップＡ４）。辞書登録部１５４は、単
語情報データベース部１５３に保持しているすべての単
語について、音声で検索を可能にするために読み方情報
を単語単位で検索用コマンド辞書１４に登録する（ステ
ップＡ５）。その後、単語情報データベース部１５３に
保持しているディクテーション認識の結果を表示装置１
６に表示する（ステップＡ６）。

【００１７】一方、図２のステップＡ３において、検索
用コマンド結果受付け部１５２に認識結果が通知された
場合は、その認識結果は検索コマンドの認識結果である
ので、認識結果は検索用コマンド受付け部１５２から単
語検索部１５５に渡される。単語検索部１５５では、検
索コマンドとして認識された結果文字列の読み方情報を
キーとして単語情報データベース部１５３を参照し、同
じ読み方情報を持つ単語を検索する（ステップＡ７）。
同じ読み方情報を持つ単語を検出した場合、さらに単語
情報データベース部１５３を参照して検索された単語の
表示開始位置および表示終了位置を取り出し、単語位置
付け部１５６で表示開始位置から表示終了位置までを選
択状態に設定した後、表示装置１６に表示する（ステッ
プＡ８）。

【００１８】次に、具体的なディクテーション例により
本発明を更に詳細に説明する。話者がまだ何も発生して
いない当初の状態では、単語情報データベース部１５３
および検索用コマンド辞書１４には何も登録されていな
いし、表示装置１６は何も表示していない。

【００１９】いま、話者が発声し音声入力装置１１か
ら、「きょうはよいてんきです」との発声が入力された
場合、音声認識部１２は、ディクテーション用辞書１３
を参照する。このとき、話者の発した音声がディクテー
ション音声ではなく検索音声である時には、「をしゅう
せい」との音声を付加するようにする。これによって、
音声認識部１２はディクテーション用辞書１３ではな
く、検索用コマンド辞書１４を参照するようにできる。
きょうはよいてんきです」には「をしゅうせい」との音
声が付加されていないので、ディクテーション音声であ
るから、音声認識部１２は、ディクテーション用辞書１
３を参照することによってディクテーション認識した結
果をディクテーション結果受付け部１５１に通知する。

【００２０】単語情報データベース部１５３には、単語
単位に、読み方情報，表記情報および位置情報が関連付
けられて登録され保存される。このとき、話者の意図は
「今日はよい天気です」であるが、音声認識部１２で
「今日はよい電気です」と誤認識した場合には、図３に
示すように、正しい読み方情報「てんき」ではなく誤認
識された読み方情報「でんき」、および正しい表記情報
「天気」ではなく、誤認識された表記情報「電気」が登
録される。

【００２１】辞書登録部１５４は、単語情報データベー
ス部１５３に登録された上述の情報の内、読み方情報を
検索用コマンド辞書１４に登録する。図４はその登録内
容を示す。図４を参照すると明らかなように、各読み方
情報には、単語情報データベース部１５３中の読み方情
報に「を修正」との文字列が付加されている。これは、
音声認識部１２は話者からの発声に「をしゅうせい」が
付加されていると、前述のように、音声認識するために
検索用コマンド辞書１４を参照するが、そのときの一致
検出を容易化するための措置である。

【００２２】このときの表示装置１６には図５に示すよ
うに「今日はよい電気です」と表示される。

【００２３】次に、表示装置１６における表示を見てデ
ィクテーション入力が誤認識されたのに気づいた話者
が、誤認識された「電気」の部分を修正するには、「で
んきをしゅうせい」と発声する。音声認識部１２は、ま
ず検索用コマンド辞書１４を参照する。すると、そこに
は、図４に示したように「でんきを修正」というコマン
ドが存在するので、話者の発声「でんきをしゅうせい」
をコマンドとして認識し、検索用コマンド結果受付け部
１５２に通知する。

【００２４】検索用コマンド結果受付け部１５２は、
「でんきをしゅうせい」から「をしゅうせい」の部分を
除いた「でんき」を単語検索部１５５に渡す。単語検索
部１５５は「でんき」という読み方で単語情報データベ
ース部１５３に対して検索を行う。単語情報データベー
ス部１５３における保持内容は、図３に示したとおりで
あり、「でんき」についてマッチングする。そこで、単
語情報検索部１５５は、「でんき」に関連付けられてい
る位置情報を求め、単語位置付け部１５６は表示装置１
６の始端５と終端７に表示されている文字列「電気」を
明暗反転し、「電気」に対する他の候補文字列を図６に
示すように表示する。

【００２５】話者が、表示された他の候補文字列の中か
ら「天気」を選択すると、表示装置１６における「電
気」の表示は「天気」に置き換わり（図９）、同時に、
単語情報データベース部１５３および検索用コマンド辞
書１４にも反映される（図７，図８）。

【００２６】なお、以上に説明した単語検索方法をコン
ピュータに実行させるためのプログラムを半導体メモ
リ，フロッピー（登録商標）ディスク，ＣＤ−ＲＯＭ等
の記録媒体に記録し、単語登録／検索処理部１５を構成
するコンピュータに読み込ませて実行させるようにして
もよい。そのプログラムはコンピュータを制御し、ディ
クテーション結果受付け部１５１，検索用コマンド結果
受付け部１５２，単語情報データベース部１５３，辞書
登録部１５４，単語検索部１５５および単語位置付け部
１５６として機能させる。

【００２７】

【発明の効果】本発明の効果は、ディクテーションと検
索コマンドとを特に意識することもなく、表示されてい
る単語を音声入力装置に向かって発声するだけで、読み
上げた単語にカーソルが位置付くことにある。その理由
は、ディクテーション認識された文字列が表示された時
点ですべての単語が検索用コマンド辞書に自動的に登録
され、音声コマンドとして利用することが可能になって
いるためである。

【図面の簡単な説明】

【図１】本発明の実施例の構成を示すブロック図

【図２】本発明の実施例の動作を示す流れ図

【図３】誤認識されたディクテーション音声例に対する
単語情報データベース部の保持内容を示す図

【図４】図３の単語情報データベース部の内容に対応す
る辞書の検索用コマンド登録内容を示す図

【図５】図３の単語情報データベース部の内容に対応す
る表示装置における表示画面図

【図６】図５の表示を修正するときの表示装置における
表示画面図

【図７】修正後の単語情報データベース部の保持内容を
示す図

【図８】修正後の検索用コマンド登録内容を示す図

【図９】修正後の表示装置における表示画面図

【符号の説明】

１１音声入力装置１２音声認識部１３ディクテーション用辞書１４検索用コマンド辞書１５単語登録／検索処理部１６表示装置１５１ディクテーション結果受付け部１５２検索用コマンド結果受付け部１５３単語情報データベース部１５４辞書登録部１５５単語検索部１５６単語位置付け部

Claims

【特許請求の範囲】

【請求項１】ディクテーション入力された音声から認
識した文字列をすべて単語単位で検索用コマンドとして
辞書に登録しておき、該単語を音声入力することによっ
て前記辞書から対応する単語を検索できるようにしたこ
とを特徴とする音声認識システム。
【請求項２】ディクテーション入力された音声から認
識した文字列をすべて単語単位で表記情報，読み方情
報，表示開始位置および表示終了位置について関連付け
てデータベースに保持することを特徴とする請求項１に
記載の音声認識システム。
【請求項３】前記辞書に保持した単語を前記検索用コ
マンドとして認識したときに、前記表示開始位置から前
記表示終了位置までカーソルを位置付けることを特徴と
する請求項２に記載の音声認識システム。
【請求項４】ディクテーション認識のための単語が予
め登録されているディクテーション用辞書と、検索用コマンドが登録される検索用コマンド辞書と、話者が発するディクテーション音声または検索音声を取
り込む音声入力装置と、該取り込まれた音声を解析し前記ディクテーション用辞
書または前記検索用コマンド辞書を参照して文字列に変
換する音声認識部と、前記ディクテーション用辞書を参照して変換された文字
列を表示するための表示装置と、該表示を行なうとともに、表示された文字列に含まれる
すべての単語を前記検索用コマンド辞書に登録し、また
前記検索用コマンド辞書を参照して変換された文字列の
前記表示における位置を指摘する単語登録／検索処理部
とを含むことを特徴とする音声認識システム。
【請求項５】前記単語登録／検索処理部は、前記音声認識部からディクテーションの認識結果通知を
受け付けるディクテーション結果受付け部と、前記音声認識部から検索コマンドの認識結果通知を受け
付ける検索用コマンド結果受付け部と、ディクテーション認識の結果として通知された文字列に
含まれるすべての単語について、単語単位でそれぞれ表
記情報および読み方情報と、前記表示装置における表示
開始位置情報および表示終了位置情報とを保持する単語
情報データベース部と、該単語情報データベース部に保持している表記情報およ
び読み方情報を音声で検索できるように、単語ごとに前
記検索用コマンド辞書に登録する辞書登録部と、前記検索用コマンド結果受付け部に通知された検索コマ
ンドの読み方情報をキーとして前記単語情報データベー
ス部を参照し単語の表示位置を検索する単語検索部と、前記表示装置における該単語の表示位置にカーソルを位
置付ける単語位置付け部とで構成されることを特徴とす
る請求項４に記載の音声認識システム。
【請求項６】前記音声認識部は、発声される音声の連
続性によって、前記ディクテーション音声と検索音声を
区別することを特徴とする請求項３ないし請求項５のい
ずれかに記載の音声認識システム。
【請求項７】前記検索用コマンド辞書に単語を登録す
るときに所定の語を付加しておき、前記検索音声を発声
するときには該所定の語を付加することによって、前記
音声認識部は前記ディクテーション音声と検索音声を区
別することを特徴とする請求項３ないし請求項５のいず
れかに記載の音声認識システム。
【請求項８】ディクテーション認識のための単語をデ
ィクテーション用辞書に予め登録しておく手順と、話者が発するディクテーション音声を取り込む手順と、該取り込まれた音声を解析し前記ディクテーション用辞
書を参照して文字列に変換する手順と、該変換された文字列を表示装置に表示する手順と、該表示された文字列に含まれるすべての単語を検索用コ
マンド辞書に登録する手順と、話者が発する検索音声を取り込む手順と、該取り込まれた音声を解析し前記検索用コマンド辞書を
参照して文字列に変換する手順と、該変換された文字列の前記表示装置における表示位置を
指摘する手順とを含むことを特徴とする単語検索方法。
【請求項９】ディクテーション認識のための単語が予
め登録されているディクテーション用辞書と、検索用コマンドが登録される検索用コマンド辞書と、話者が発するディクテーション音声または検索音声を取
り込む音声入力装置と、該取り込まれた音声を解析し前記ディクテーション用辞
書または前記検索用コマンド辞書を参照して文字列に変
換する音声認識部と、前記ディクテーション用辞書を参照して変換された文字
列を表示するための表示装置とを備えた音声認識システ
ムを構成するコンピュータに、前記音声認識部からディクテーションの認識結果通知を
受け付ける処理と、前記音声認識部から検索コマンドの認識結果通知を受け
付ける処理と、ディクテーション認識の結果として通知された文字列に
含まれるすべての単語について、単語単位でそれぞれ表
記情報および読み方情報と、前記表示装置における表示
開始位置情報および表示終了位置情報とを前記単語情報
データベース部に保持させる処理と、該単語情報データベース部に保持している表記情報およ
び読み方情報を音声で検索できるように、単語ごとに前
記検索用コマンド辞書に登録させる処理と、前記検索用コマンド結果受付け部に通知された検索コマ
ンドの読み方情報をキーとして前記単語情報データベー
ス部を参照し単語の表示位置を検索する処理と、前記表示装置における該単語の表示位置にカーソルを位
置付ける処理とを行なわせるプログラムを記録した記録
媒体。