JP2002156996A - 音声認識装置、認識結果修正方法及び記録媒体 - Google Patents

音声認識装置、認識結果修正方法及び記録媒体

Info

Publication number
JP2002156996A
JP2002156996A JP2000350193A JP2000350193A JP2002156996A JP 2002156996 A JP2002156996 A JP 2002156996A JP 2000350193 A JP2000350193 A JP 2000350193A JP 2000350193 A JP2000350193 A JP 2000350193A JP 2002156996 A JP2002156996 A JP 2002156996A
Authority
JP
Japan
Prior art keywords
character string
correction
recognition
text
caret
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000350193A
Other languages
English (en)
Other versions
JP4509361B2 (ja
Inventor
Yuichiro Aso
裕一郎 麻生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2000350193A priority Critical patent/JP4509361B2/ja
Publication of JP2002156996A publication Critical patent/JP2002156996A/ja
Application granted granted Critical
Publication of JP4509361B2 publication Critical patent/JP4509361B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】音声をテキストに変換した際に、その認識結果
として得られたテキストの中に多数の修正個所があって
も、これらを連続して修正可能とする。 【解決手段】音声認識処理により得られたテキストを修
正する場合に、左方向キーまたは左方向キーの操作によ
りテキストの中でカレットCLを巡回的に移動ささせ
る。このカレットで修正位置が指定された際に、その修
正位置に認識文字列が存在するか否かを判断し、認識文
字列が存在する場合に当該認識文字列を修正するための
修正データ(候補群)を表示する。また、この修正デー
タが表示されている状態で上記カレットの移動により他
の修正位置を指定された場合に、上記他の修正位置に対
応した認識文字列の修正データを連続的に表示する。こ
れにより、テキスト中に複数の修正個所があっても、こ
れらにカレットを移動させて修正操作を連続的に行うこ
とが可能となる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、パーソナルコンピ
ュータなどに用いられ、音声をテキストに変換する音声
認識装置であって、特に認識結果として表示されたテキ
ストを修正する場合に用いて好適な音声認識装置と、こ
の音声認識装置に用いられる認識結果修正方法及び記録
媒体に関する。
【0002】
【従来の技術】音声認識装置は、マイクなどを通じて入
力された音声をテキストに変換して出力するものであ
り、パーソナルコンピュータなどに広く用いられてい
る。なお、この音声認識装置は、実際には音声認識用の
アプリケーションソフト(音声入力システムと呼ばれ
る)としてパーソナルコンピュータなどに提供されるも
のである。
【0003】このような音声認識装置を用いて音声をテ
キストに変換した場合、必ずしもユーザが期待している
認識結果が得られるとは限らない。そこで、従来の装置
では、以下のような操作により修正を可能としていた。
【0004】まず、テキスト中の修正箇所に“カレッ
ト”と呼ばれるカーソルを移動させた後、修正ボタンを
押下するなどして修正モードを起動する。修正モードを
起動すると、修正ウインドウが開く。この修正ウインド
ウには、カレットで指定された位置の認識文字文字列に
対応した候補の一覧が表示されている。この修正ウイン
ドウから正しい認識候補を選択するか、あるいは、同ウ
インドウ上で正しい文字列をキー入力することで修正を
行う。修正後、終了ボタンを押下して修正ウインドウを
閉じる。
【0005】他の箇所を修正する場合には、上記同様の
操作を繰り返す。つまり、次の修正箇所にカレットを移
動して修正ウインドウを開き、そのウインドウ上で候補
選択あるいはキー入力により修正を行った後、修正ウイ
ンドウを閉じるといった操作を行う。
【0006】
【発明が解決しようとする課題】上記したように、従
来、認識結果として表示されたテキストを修正する場合
に各修正個所毎にその都度、修正ウインドウを開いて修
正を行う必要があった。このため、修正個所が多数ある
と、その数だけ修正ウインドウを開く操作を繰り返し行
わなければならず、操作が煩雑となり、修正に時間がか
かるなどの問題があった。
【0007】本発明は上記のような点に鑑みなされたも
ので、音声をテキストに変換した際に、その認識結果と
して得られたテキストの中に多数の修正個所があって
も、これらを連続して修正することのできる音声認識装
置、認識結果修正方法及び記録媒体を提供することを目
的とする。
【0008】
【課題を解決するための手段】本発明の音声認識装置
は、音声を入力する音声入力手段と、この音声入力手段
によって入力された音声を認識処理してテキストに変換
する変換手段と、この変換手段によって変換されたテキ
ストを表示する表示手段と、特定のキー操作により、上
記表示手段に表示された上記テキストの修正位置を指定
するためのカレットを巡回的に移動させるカレット移動
手段と、上記カレットにて修正位置が指定された際に、
その修正位置に認識文字列が存在するか否かを判断する
判断手段と、この判断手段により認識文字列が存在する
と判断された場合に、当該認識文字列を修正するための
修正データを表示する修正データ表示手段と、この修正
データ表示手段により修正データが表示されている状態
で上記カレットの移動により他の修正位置が指定された
場合に、上記他の修正位置に対応した認識文字列の修正
データを連続的に表示させる表示制御手段とを具備して
構成される。
【0009】このような構成によれば、認識結果として
得られたテキストを修正する場合に、上記テキストの中
でカレットを巡回的に移動させながら修正位置を指定
し、その指定位置に存在する認識文字列の修正データを
表示させることができる。また、この修正データが表示
されている状態で上記カレットの移動により他の修正位
置を指定することで、上記他の修正位置に対応した認識
文字列の修正データを連続的に表示させることができ
る。したがって、テキスト中に複数の修正個所があって
も、これらにカレットを移動させて修正操作を連続的に
行うことが可能となる。
【0010】
【発明の実施の形態】以下、図面を参照して本発明の一
実施形態を説明する。
【0011】図1に本発明の音声認識装置をパーソナル
コンピュータで実現した場合の外観構成を示す。なお、
本発明の音声認識装置は実際にはアプリケーションソフ
トとして提供されるものであり、パーソナルコンピュー
タはこのアプリケーションソフトを搭載することで、音
声認識装置としての機能を実行する。
【0012】図1において、11はパソコン本体であ
り、ここではノートブックタイプのパソコン本体として
示されている。このパソコン本体11には、例えばTF
Tカラー液晶装置などからなるディスプレイ12や、文
字キー、数字キーなどをの各種キーを有するキーボード
13が設けられていると共に、ポインティングデバイス
として用いられるマウス14や、マイク15とスピーカ
16を備えたヘッドセット17がケーブルを介してパソ
コン本体11に設けられた専用端子に接続されている。
【0013】図2は本装置をパーソナルコンピュータで
実現した場合のシステム構成を示すブロック図である。
【0014】パソコン本体11の内部には、CPU2
1、システムコントローラ22、メモリ23、グラフィ
クスコントローラ24、キーボードコントローラ(KB
C)25、I/Oコントローラ26、HDD27、サウ
ンドコントローラ28、通信コントローラ29などが設
けられている。
【0015】CPU21は、メモリ23に記憶されたプ
ログラムを読み込むことで各種処理を実行する。このC
PU21には、システムコントローラ22を介してメモ
リ23やグラフィクスコントローラ24などが接続され
る。
【0016】メモリ23には、オペレーティングシステ
ムや実行対象の各種アプリケーションソフトがHDD2
7を通じてロードされる。本実施形態では、音声をテキ
ストに変換するための音声認識用のアプリケーションソ
フトがロードされて実行される。グラフィクスコントロ
ーラ24は、LCDなどのディスプレイ12を制御する
ためのものである。キーボードコントローラ25は、キ
ーボード13やマウス14の入力制御を行う。
【0017】キーボード13には、文字キー、数字キー
の他、上下左右方向へのカレット移動を指示するための
4つの矢印キーや、各種指示を行うためのファンクショ
ンキーなどが設けられている。また、マウス14はキー
ボード13と併用されて画面上の位置を指定する場合な
どのポインティングデバイスとして用いられる。
【0018】操作I/Oコントローラ26は、HDD2
7とのインタフェース処理を行う。このHDD27に
は、音声認識用のアプリケーションソフトを含む各種プ
ログラムが格納されている。
【0019】サウンドコントローラ28は、マイク15
およびスピーカ16を用いて音声の入出力処理を行う。
通信コントローラ29は、ネットワークなどを介して外
部端末との間の通信制御を行う。
【0020】図3は本装置の機能構成を示すブロック図
である。
【0021】図3に示すように、本実施形態における音
声認識装置を機能的に示すと、音声入力部31、修正指
示部32、制御部33、表示部34、カレット位置監視
部35、認識結果管理部36、リストテーブル37から
なる。
【0022】音声入力部31は、音声を入力する部分で
あり、図1に示すマイク15を用いて音声の入力を行
う。なお、音声の入力はマイク15に限らず、電話やW
aveファイルなどであっても良い。修正指示部32
は、音声認識結果として得られたテキストの修正指示や
その修正位置を指示する部分であり、図1に示すキーボ
ード13やマウス14の操作によるものである。
【0023】制御部33は、本装置全体の制御を行うも
のであり、ここでは音声認識処理部33a及びカレット
移動処理部33bを備えて音声認識処理に関する一連の
処理を実行する。
【0024】音声認識処理部33aは音声入力部31か
ら入力された音声を認識処理してテキストに変換する。
なお、音声認識の方法としては、一般的に知られている
方法を用いるものとする。例えば、入力された音声信号
を音響的に解析し、その解析結果として得られたパラメ
ータ(特徴量)を音素レベル単位で音声認識辞書内のデ
ータ(音素の特徴成分を示すデータ)と比較して類似度
を計算し、類似度の高い音素を結合して単語や文節の文
字列を作成する。カレット移動処理部33bはカレット
移動指示に従ってカレットを所定の単位で移動させる処
理を行う。カレットとは、画面上で現在選択されている
位置を示すものである。
【0025】表示部34は、上記音声認識処理により認
識結果として得られたテキストを表示すると共に、その
テキストの修正が指示された場合には修正ウインドウを
表示する。
【0026】カレット位置監視部35は、現在表示され
ているカレットの位置を監視する。認識結果管理部36
は、リストテーブル37を用いて音声認識処理部33a
によって認識結果として得られたテキストの各認識文字
列とこれらの候補データを画面上のオフセット位置と共
に管理する。また、修正指示があった場合にはリストテ
ーブル37から現在のカレット位置に一致する認識文字
列を検索し、その候補データを抽出する。
【0027】図4にリストテーブル37の構成例を示
す。
【0028】リストテーブル37は、認識結果として得
られたテキストを構成する各認識文字列とこれらの候補
データを画面上のオフセット位置と共に管理するための
テーブルである。
【0029】例えば、「オンセイデ ブンショヲ ニュ
ウリョクシマス」といった音声の入力に対し、「音声で
文書を入力します」といったテキストが認識結果として
得られたとする(図5参照)。このような場合に、所定
の単位(単語単位あるいは文節単位)で得られた「音声
で」,「文書を」,「入力します」といった各認識文字
列とその候補データが画面上のオフセット位置と共にリ
ストテーブル37に管理される。
【0030】オフセット位置とは画面上に表示された文
字列の位置を示すものである。この例では、1文字につ
き2バイト単位でオフセット位置を表しており、「音声
で」のオフセット位置を「0〜5」、「文書を」のオフ
セット位置を「6〜11」、「入力します」のオフセッ
ト位置を「12〜21」で示している。これは、例えば
「音声で」の「音」は「0〜1」、「声」は「2〜
3」、「で」は「4〜5」で示されるオフセット位置に
あることを意味している。
【0031】なお、ここでは各文字列毎にその先頭位置
と終了位置のオフセットが示されているが、少なくとも
文字列の先頭位置のオフセットがあれば良い(終了位置
は文字列の長さから算出できるため)。
【0032】候補データは各認識文字列に対応して管理
されており、例えば「音声で」に対しては、現在表示さ
れている「音声で」を含め、「混声で」、「混成で」、
「音声が」、「音声」…などが候補として挙げられてい
る。なお、これらの認識候補の読みを併せ持つ持つこと
も可能である。また、実際には、各認識文字列毎にこれ
らの候補データは候補バッファ(図2に示すメモリ23
など)に格納されており、リストテーブル37上にはそ
の候補データの格納位置を示すポインタが記憶される。
【0033】このようなリストテーブル37を参照する
ことで、現在表示されているカレット位置に一致する認
識文字列を検索して、その候補データを表示することが
できる。この候補データに基づいて現在認識結果として
表示されている認識文字列が他の認識候補に置き換えら
れた場合には、その置換後の文字列の長さに応じてリス
トテーブル37のオフセット位置が更新される。
【0034】例えば、テキスト中の「音声で」といった
認識文字列が候補データの中の「音声」に置換される
と、オフセット位置は以下のように更新される。
【0035】 「音声」 :「0〜3」 「文書を」 :「4〜9」 「入力します」:「10〜19」 また、新たな文字列がキー入力により挿入された場合に
は、その挿入文字列の長さに応じてリストテーブル37
のオフセット位置が更新される。
【0036】例えば、認識結果として得られた「音声で
文書を入力します」の「音声で」と「文書を」との間に
「特許」といった文字列がキー入力され、「音声で特許
文書を入力します」といった文字列に編集されたとす
る。このような場合には、文各認識文字列のオフセット
位置は以下のように更新される。なお、キー入力された
文字列「特許」は認識結果として得られたものではない
ので、リストテーブル37では管理されず、後に説明す
るようにカレット移動時に修正対象外として扱われる
(図7参照)。
【0037】 「音声で」 :「0〜5」 「文書を」 :「10〜15」 「入力します」:「16〜25」 なお、このリストテーブル37の内容は、修正モードの
終了が指示されてから新たに修正モードの起動が指定さ
れるまで保持される。つまり、この間、修正データは保
持された状態にあり、何度でも繰り返し修正を行うこと
ができる。
【0038】図5は本装置の音声入力画面の構成を示す
図である。
【0039】この音声入力画面には、音声入力を指示す
る音声入力ボタン41、テキストの修正を指示する修正
ボタン42の他、音声入力に関する各種の指示ボタンが
設けられている。音声入力ボタン41をクリックすると
音声入力状態となり、図1に示すマイク15などを通じ
て音声を入力することにより、その入力された音声がテ
キストに変換されて画面上に表示される。この例では、
「音声で文書を入力します」といったテキストが認識結
果として表示されている。
【0040】ここで、本装置では、所定のモード起動操
作により修正モードを起動すると、そのときにカレット
CLにて選択されている文字を含む認識文字列の範囲が
修正対象として反転表示などの特定の表示形態で表示さ
れると共に、当該認識文字列に対応した候補データを有
する修正ウインドウ43が当該認識文字列の近傍に表示
される。この例では、カレットCLにて選択された
「を」を含む「文書を」が認識文字列の範囲として反転
表示されており、その文字列を修正対象とした修正ウイ
ンドウ43が修正対象文字列の下に表示されている。
【0041】なお、上記所定のモード起動操作とは、音
声入力画面上の修正ボタン42を押下したり、認識文字
列上でマウス14の左ボタンをダブルクリックしたり、
特定のファンクションキー(F5キー)を押下するなど
があり、これらのいずれかの操作を行うと、カレットC
Lの位置に従って認識文字列が自動選択され、その認識
文字列に対応した修正ウインドウ43が表示される。
【0042】修正ウインドウ43は、現在認識結果とし
て表示されている認識文字列を修正するためのウインド
ウであり、タイトルバー44、エディットボックス4
5、リストボックス46、番号ボタン47、再生ボタン
48、表示ボタン49、確定ボタン50、削除ボタン5
1などからなる。
【0043】タイトルバー44には、現在の表示モード
(「全候補表示」または「異なる読みで整列表示」)が
表示される。
【0044】エディットボックス45には、現在選択さ
れている認識文字列(単語または文節)が表示される。
また、このエディットボックス45にてキー入力により
文字列の編集が可能である。
【0045】リストボックス46には、修正対象として
選択されている認識文字列に対応した認識候補の一覧が
表示される。この表示モードとして、「全候補表示」と
「異なる読みで整列表示」の2つのモードがあり、これ
らを表示ボタン49にて切り替えることができる。「全
候補表示」は音声認識処理(認識エンジン)にて得られ
た全候補を確信度の高い順に表示するモードである。
「異なる読みで整列表示」は候補を異なる読みで表示す
るモードである。図5の例は「全候補表示」である。
「異なる読みで整列表示」に切り替えた場合には、「ぶ
んしょを」,「ぶんしょうを」,…といったように各候
補が読みで表示され、さらにその読みから同音異義語の
表示も可能である。
【0046】番号ボタン47は、リストボックス46内
の各候補を番号にて選択するためのボタンである。再生
ボタン48は、修正対象文字列の認識元になった生音声
の再生を指示するためのボタンである。表示ボタン49
は、「全候補表示」と「異なる読みで整列表示」の2つ
のモードを切り替えるためのボタンである。確定ボタン
50は選択候補を確定するためのボタン、削除ボタン5
1は選択候補を削除するためのボタンである。
【0047】候補の選択はリストボックス46上の候補
をダブルクリックするか、番号ボタン47をクリックす
るか、リストボックス46上の候補を選択した状態で確
定ボタン50をクリックあるいはキーボード13上のリ
ターンキーを押下することで行う。選択された候補はエ
ディットボックス45に現在の候補に代わって表示され
る。また、画面上で修正対象として選択された認識文字
列に代わって当該選択候補の文字列が認識結果として表
示される。したがって、所望の候補を選択するだけで、
認識文字列の修正を簡単に行うことができる。また、エ
ディットボックス45に所望の文字列をキー入力するこ
とでも修正を行うことができる。
【0048】また、本装置では、所定のモード終了操作
にて修正モードを終了するまでは、修正ウインドウ43
を以下のような操作により他の認識文字列へ移動させる
ことができる。
【0049】(1)他の認識文字列を左クリック マウス14の操作により他の認識文字列を選択して左ク
リックすると、その認識文字列へカレットCLが移動す
ると共に修正ウインドウ43が移動する。
【0050】(2)右/左の矢印キーの押下 キーボード13の右矢印キーを押下すると、次の認識文
字列へカレットCLが移動すると共に修正ウインドウ4
3が移動する。このとき、現在選択されている認識文字
列がテキストの末尾にあれば、先頭の認識文字列へ移動
する(図6参照)。同様に、キーボード13の左矢印キ
ーを押下すると、1つ前の認識文字列へカレットCLが
移動すると共に修正ウインドウ43が移動する。このと
き、現在選択されている認識文字列がテキストの先頭に
あれば、末尾の認識文字列へ移動する。
【0051】(3)修正ウインドウ内の削除ボタンのク
リック 修正ウインドウ43の下部に設けられている削除ボタン
51をクリックすると、次の認識文字列へカレットCL
が移動すると共に修正ウインドウ43が移動する。この
とき、現在選択されている認識文字列がテキストの末尾
にあれば、先頭の認識文字列へ移動する。
【0052】このように、修正ウインドウ43が表示さ
れている状態では、その都度、修正モードを起動しなく
とも、修正ウインドウ43を移動させて他の認識文字列
を連続的に修正することができる。
【0053】なお、上記所定のモード終了操作とは、画
面上で認識文字列以外の領域をクリックするか、Esc
キーなどの特定のキーを押下するなどである。このよう
な操作を行うことで、修正ウインドウ43が閉じて修正
モードが終了する。
【0054】図6は本装置の修正モード時におけるカレ
ットCLの移動を説明するための図である。
【0055】今、「音声で文書を入力します」といった
テキストが認識結果として表示されている場合を想定す
る。なお、ここでは「音声で/文書を/入力します」
(/は文節の区切れを示す)といったように、文節の単
位が認識単位であるとする。
【0056】図6(a)に示すように、カレットCLを
「で」の位置に設定して修正モードを起動すれば、「音
声で」といった認識文字列が修正対象として反転表示さ
れ、その修正対象文字列である「音声で」に対応する候
補データを有する修正ウインドウ43が「音声で」の近
傍に表示される。各認識文字列に対応した候補データは
図4に示すリストテーブル37から得られ、該当する修
正ウインドウ43に表示される。
【0057】ここで、図6(a)の状態で、右矢印キー
を押下すると、図6(b)に示すように、次の認識文字
列である「文書を」の「を」の位置にカレットCLが移
動し、それに伴い「文書を」の近傍に修正ウインドウ4
3が移動する。この場合、修正ウインドウ43には「文
書を」に対応する候補データが表示される(図5参
照)。
【0058】続けて、右矢印キーを押下すれば、図6
(c)に示すように、次の認識文字列である「入力しま
す」の「す」の位置にカレットCLが移動し、その近傍
に修正ウインドウ43が移動し、そこに「入力します」
に対応する候補データが表示される。
【0059】また、図6(c)の状態つまりテキストの
末尾の文字認識文字列にカレットCLがある状態で右矢
印キーを押下すれば、図6(d)に示すように先頭の認
識文字列「音声で」の「で」の位置にカレットCLが移
り、その近傍に修正ウインドウ43が移動して「音声
で」に対応した候補データが表示される。
【0060】同様に、左矢印キーを押下すれば、その押
下に伴いカレットCLが1つ前の修正文字列に移動し、
それに追従して修正ウインドウ43も移動する。この場
合、テキストの先頭の文字認識文字列「音声で」の
「で」の位置にカレットCLがある状態で左矢印キーを
押下すれば、末尾の認識文字列「入力します」の「す」
にカレットCLが移動し、それに伴い「入力します」に
対応した修正ウインドウ43が表示される。
【0061】このようなカレットCLの移動は認識文字
列に対してのみ行われ、キー入力された文字列には適用
されない。この様子を図7に示す。
【0062】図7は本装置のキー入力された文字列を含
む場合のカレットCLの移動を説明するための図であ
る。
【0063】今、認識結果として得られた「音声で文書
を入力します」の「音声で」と「文書を」といった認識
文字列の間に「特許」といった文字列がキー入力された
とする。図7(a)に示すように、「音声で」の「で」
の位置にカレットCLがある状態で右矢印キーを押下す
ると、同図(b)に示すようにキー入力文字列である
「特許」を飛ばして次の認識文字列「文書を」の「を」
の位置にカレットCLが移動し、「文書を」に対応した
候補データを有する修正ウインドウ43が表示される。
【0064】次に、フローチャートを参照しながら本装
置の処理動作について説明する。
【0065】図8は本装置における音声入力時の処理動
作を示すフローチャートである。
【0066】音声入力部31(マイク15など)により
音声が入力されると(ステップA11)、制御部33の
音声認識処理部33aにより、入力された音声が音声認
識処理されてテキストに変換され(ステップA12)、
その変換後のテキストが認識結果として表示部34によ
り画面上に表示される(ステップA13)。詳しくは、
入力された音声信号が音響的に解析され、その解析結果
として得られたパラメータ(特徴量)が音素レベル単位
で音声認識辞書内のデータと比較される。そして、この
比較結果に基づいて、類似度の高い音素が結合されて単
語や文節の文字列が作成されて表示される。
【0067】また、入力音声に対応したテキストが表示
された際に、そのテキストを構成する各認識文字列に関
するリストテーブル37が作成される(ステップA1
4)。リストテーブル37の一例を図4に示す。この例
では、「音声で」、「文書を」、「入力します」といっ
たように、文節単位で得られた各認識文字列とこれらの
に候補データがオフセット位置と共に管理されている。
【0068】ここで、所定の操作により修正モードの起
動が指示されると(ステップA15のYes)、現在表
示されているカレットCLの位置がカレット位置監視部
35により検出され、認識結果管理部36に伝えられる
(ステップA17)。
【0069】認識結果管理部36ではリストテーブル3
7の各認識文字列のオフセット位置とカレットCLの位
置とを比較して、カレットCLの位置に一致する認識文
字列を検索する(ステップA17)。該当する認識文字
列がある場合、つまり、カレットCLの位置に認識文字
列が存在する場合には(ステップA18のYes)、そ
の認識文字列が修正対象として指定されて反転表示され
る(ステップA19)。詳しくは、カレットCLの位置
にある文字を含む認識文字列の範囲が検出され、その認
識文字列が修正対象として反転表示される。なお、この
修正対象の表示方法は反転表示に限らず、例えば表示色
の変更や、アンダーラインの付加など、他の文字列と区
別可能な表示形態であれば良い。
【0070】また、当該認識文字列に対応した候補デー
タがリストテーブル37により取得され、その修正デー
タを有する修正ウインドウ43が当該認識文字列の近傍
に表示される(ステップA20)。修正ウインドウ43
の一例を図5に示す。この例では、カレットCLの位置
にある「を」を含む「文書を」といった認識文字列が修
正対象として選択されて反転表示され、「文書を」の候
補データを有する修正ウインドウ43が表示されてい
る。
【0071】修正ウインドウ43が表示された状態で、
例えばリストボックス46の中から所望の候補を選択す
ると、現在カレットCLにて修正対象として選択されて
いる認識文字列がその選択候補に置き換えられる。ま
た、エディットボックス45にてキー入力により現在の
認識文字列を編集すれば、その編集された文字列に置き
換えられる。このような操作により、認識結果として得
られたテキストの文字列を任意に修正することができ
る。
【0072】図9は本装置におけるカレット移動時の処
理動作を示すフローチャートである。
【0073】音声認識後、テキスト中の修正個所を指示
するべく、修正指示部32(キーボード13またはマウ
ス14)によりカレットCLを移動させると(ステップ
B11)、まず、現在、修正ウインドウ43が表示され
ているか否かが判断される(ステップB12)。
【0074】ここで、修正ウインドウ43が表示されて
いる場合には(ステップB12のYes)、カレット位
置監視部35にて移動先のカレットCLの位置が検出さ
れて認識結果管理部36に伝えられる(ステップB1
3)。認識結果管理部36ではリストテーブル37の各
認識文字列のオフセット位置とカレットCLの位置とを
比較して、カレットCLの位置に一致する認識文字列を
検索し(ステップB14)、該当する認識文字列がある
場合には(ステップB15のYes)、その認識文字列
が修正対象として指定されて反転表示される(ステップ
B16)。
【0075】また、当該認識文字列に対応した候補デー
タがリストテーブル37により取得され、その修正デー
タを有する修正ウインドウ43が当該認識文字列の近傍
に表示される(ステップB17)。つまり、修正ウイン
ドウ43が表示されている状態でカレットCLを他の認
識文字列上に移動させると、その移動先に修正ウインド
ウ43も移動する。この場合、修正ウインドウ43の内
容は移動先の認識文字列に対応したものである。したが
って、複数の修正個所がある場合に、従来のように、各
修正個所毎に修正ウインドウ43を表示させて修正する
といった操作を繰り返さなくとも、カレットCLを移動
させながら連続して修正操作を行うことができる。
【0076】図10は本装置における修正モード時のカ
レット移動処理を示すフローチャートである。
【0077】修正モードが設定されている状態で、例え
ばキーボード13の右矢印キーの押下によりカレットC
Lの移動が指示されると(ステップC11のYes)、
まず、現在のカレットCLの位置が画面上に認識結果と
して表示されたテキストの末尾に存在する認識文字列上
にあるか否かが判断される(ステップC12)。その結
果、カレットCLの位置が末尾以外の認識文字列上にあ
る場合には(ステップC12のNo)、リストテーブル
37から当該カレット位置から右方向に存在する次の認
識文字列の位置が検出され、その認識文字列上へカレッ
トCLの移動が制御される(ステップC13)。なお、
本実施形態では、認識文字列を構成する各文字の最後の
文字の位置へカレットCLを移動させるものとする。
【0078】また、右矢印キーが押下された際にカレッ
トCLの位置がテキストの末尾に存在する認識文字列上
にあった場合には(ステップC12のYes)、リスト
テーブル37から先頭の認識文字列が検出され、その認
識文字列上へカレットCLの移動が制御される(ステッ
プC14)。
【0079】一方、キーボード13の左矢印キーの押下
によりカレットCLの移動が指示されると(ステップC
15のYes)、まず、現在のカレットCLの位置が画
面上に認識結果として表示されたテキストの先頭に存在
する認識文字列上にあるか否かが判断される(ステップ
C16)。その結果、カレットCLの位置が先頭以外の
認識文字列上にある場合には(ステップC16のN
o)、リストテーブル37から当該カレット位置から左
方向に存在する1つ前の認識文字列の位置が検出され、
その認識文字列上へカレットCLの移動が制御される
(ステップC17)。
【0080】また、左矢印キーが押下された際にカレッ
トCLの位置がテキストの先頭に存在する認識文字列上
にあった場合には(ステップC16のYes)、リスト
テーブル37から末尾の認識文字列が検出され、その認
識文字列上へカレットCLの移動が制御される(ステッ
プC18)。
【0081】このように、カレットCLを認識単位で移
動させることができ、しかも、テキスト中で右方向ある
いは左方向に巡回させることができる。したがって、例
えば図6に示すように、先頭から順に認識文字列を修正
していくような場合において、修正し忘れた認識文字列
や修正を誤った認識文字列があった際にはカレットCL
を先頭に戻して修正をやり直すことができて便利であ
る。
【0082】また、このようなカレットCLの移動は認
識文字列のみを対象にして行われるため、例えば図7に
示すように、認識文字列以外の文字列(ここでは「特
許」)が含まれている場合には、その文字列を飛ばして
カレットCLが次の認識文字列に移動する。したがっ
て、認識文字列のみを対象として修正操作を効率的に行
うことができる。
【0083】なお、上記実施形態では、1つの文の中で
カレットCLを巡回的に移動させる場合を例にして説明
したが、例えば「音声で文書を入力します。特許明細書
を入力します。」といったように、複数の文が句点で区
切られて連続して音声入力された場合には、それらの文
全体を修正対象としてカレットCLを順次移動させる方
法の他に、以下のように各文毎にカレットCLを移動さ
せることも可能である。
【0084】すなわち、今、「音声で/文書を/入力し
ます/。/特許明細書を/入力します/。」(/は文節
の区切れを示す)といったように、2つの文からなる認
識結果が表示されたとする。なお、ここでは文節の単位
が認識単位であるとする。
【0085】このような場合に、例えば「音声で文書を
入力します。」の句点「。」の位置にカレットCLがあ
る状態で右矢印キーが押下されたとき、「音声で」の
「で」の位置にカレットCLを移動させる。また、「音
声で文書を入力します。」の「で」の位置にカレットC
Lがある状態で左矢印キーが押下されたとき、当該文
(「音声で文書を入力します。」)の末尾にある「。」
の位置にカレットCLを移動させる。
【0086】ここで、「音声で文書を入力します。」の
句点「。」の位置にカレットCLがある状態で特定のキ
ー(例えばタブキー)が押下された場合には、次の文で
ある「特許明細書を入力します。」を修正対象として、
「特許明細書」の「書」の位置にカレットCLを移動さ
せる。以後、特定のキー(例えばタブキー)が押下され
るまでは、当該文(「特許明細書」)を修正対象とし
て、右矢印キーまたは左矢印キーの操作に伴いカレット
CLを認識単位で巡回的に移動させる。
【0087】このようなカレットCLの移動制御は、例
えば以下のような処理を追加することで実現できる。
【0088】すなわち、現在のカレットCLの位置をカ
レット位置監視部35で監視し、右矢印キーが押下され
たときには、カレットCLが句点の位置にあるかか否か
をリストテーブル37(句点も1文字として登録されて
いる)を参照して判断し、カレットCLが句点の位置に
ある場合には当該句点を含む文の先頭の認識文字列上に
カレットCLを移動させ、左矢印キーが押下されたとき
には、カレットCLが文の先頭の認識文字列上にあるか
否かをリストテーブル37を参照して判断し、カレット
CLが文の先頭の認識文字列上にある場合には当該文の
末端の句点の位置にカレットCLを移動させる。
【0089】また、カレットCLが句点の位置にある状
態で、特定のキーが押下された場合にリストテーブル3
7を参照して当該句点の後に次の文が続いているか否か
を判断し、次の文が続いている場合にはその文の先頭の
認識文字列にカレットCLを移動させる。
【0090】なお、上述した実施形態において記載した
手法は、コンピュータに実行させることのできるプログ
ラムとして、例えば磁気ディスク(フロッピー(登録商
標)ディスク、ハードディスク等)、光ディスク(CD
−ROM、DVD等)、半導体メモリなどの記録媒体に
書き込んで各種装置に適用したり、通信媒体により伝送
して各種装置に適用することも可能である。本装置を実
現するコンピュータは、記録媒体に記録されたプログラ
ムを読み込み、このプログラムによって動作が制御され
ることにより、上述した処理を実行する。
【0091】
【発明の効果】以上詳記したように本発明によれば、認
識結果として得られたテキストを修正する場合に、上記
テキストの中でカレットを巡回的に移動させながら修正
位置を指定して、その修正位置に存在する認識文字列の
修正データを表示させることでき、また、この修正デー
タが表示されている状態で上記カレットの移動により他
の修正位置を指定することで、上記他の修正位置に対応
した認識文字列の修正データを連続的に表示させること
ができる。したがって、テキスト中に複数の修正個所が
あっても、これらにカレットを移動させて修正操作を連
続的に行うことが可能となる。
【図面の簡単な説明】
【図1】本発明の音声認識装置をパーソナルコンピュー
タで実現した場合の外観構成を示す図。
【図2】本発明の音声認識装置をパーソナルコンピュー
タで実現した場合のシステム構成を示すブロック図。
【図3】本装置の機能構成を示すブロック図。
【図4】本装置に設けられたリストテーブルの構成を示
す図。
【図5】本装置の音声入力画面の構成を示す図。
【図6】本装置の修正モード時におけるカレットの移動
を説明するための図。
【図7】本装置のキー入力された文字列を含む場合のカ
レットCLの移動を説明するための図。
【図8】本装置における音声入力時の処理動作を示すフ
ローチャート。
【図9】本装置におけるカレット移動時の処理動作を示
すフローチャート。
【図10】本装置における修正モード時のカレット移動
処理を示すフローチャート。
【符号の説明】 11…パソコン本体 12…ディスプレイ 13…キーボード 14…マウス 15…マイク 16…スピーカ 17…ヘッドセット 31…音声入力部 32…修正指示部 33…制御部 33a…音声認識処理部 33b…カレット移動処理部 34…表示部 35…カレット位置監視部 36…認識結果管理部 37…リストテーブル 41…音声入力ボタン 42…修正ボタン 43…修正ウインドウ CL…カレット

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 音声を入力する音声入力手段と、 この音声入力手段によって入力された音声を認識処理し
    てテキストに変換する変換手段と、 この変換手段によって変換されたテキストを表示する表
    示手段と、 特定のキー操作により、上記表示手段に表示された上記
    テキストの修正位置を指定するためのカレットを巡回的
    に移動させるカレット移動手段と、 上記カレットにて修正位置が指定された際に、その修正
    位置に認識文字列が存在するか否かを判断する判断手段
    と、 この判断手段により認識文字列が存在すると判断された
    場合に、当該認識文字列を修正するための修正データを
    表示する修正データ表示手段と、 この修正データ表示手段により修正データが表示されて
    いる状態で上記カレットの移動により他の修正位置が指
    定された場合に、上記他の修正位置に対応した認識文字
    列の修正データを連続的に表示させる表示制御手段とを
    具備したことを特徴とする音声認識装置。
  2. 【請求項2】 上記カレット移動手段は、上記特定のキ
    ー操作により上記テキストを構成する各認識文字列毎に
    上記カレットを移動させることを特徴とする請求項1記
    載の音声認識装置。
  3. 【請求項3】 上記修正データ表示手段は、認識文字列
    に対応した候補の一覧を当該認識文字列の近傍に表示す
    ることを特徴とする請求項1記載の音声認識装置。
  4. 【請求項4】 音声を認識処理してテキストに変換し、
    その変換後のテキストを画面上に表示する音声認識装置
    に用いられる認識結果修正方法であって、 特定のキー操作により、上記画面上に表示されたテキス
    トの修正位置を指定するためのカレットを巡回的に移動
    させ、 上記カレットにて修正位置が指定された際に、その修正
    位置に認識文字列が存在するか否かを判断し、 認識文字列が存在すると判断された場合に、当該認識文
    字列を修正するための修正データを表示し、 この修正データが表示されている状態で上記カレットの
    移動により他の修正位置が指定された場合に、上記他の
    修正位置に対応した認識文字列の修正データを連続的に
    表示させることを特徴とする認識結果修正方法。
  5. 【請求項5】 音声を認識処理してテキストに変換し、
    その変換後のテキストを画面上に表示する音声認識プロ
    グラムを記録した記録媒体であって、 コンピュータに、 特定のキー操作により、上記画面上に表示された上記テ
    キストの修正位置を指定するためのカレットを巡回的に
    移動させるカレット移動処理と、 上記カレットにて修正位置が指定された際に、その修正
    位置に認識文字列が存在するか否かを判断する判断処理
    と、 この判断処理により認識文字列が存在すると判断された
    場合に、当該認識文字列を修正するための修正データを
    表示する修正データ表示処理と、 この修正データ表示処理により修正データが表示されて
    いる状態で上記カレットの移動により他の修正位置が指
    定された場合に、上記他の修正位置に対応した認識文字
    列の修正データを連続的に表示させる表示制御処理とを
    実行させるプログラムを記録したコンピュータ読み取り
    可能な記録媒体。
JP2000350193A 2000-11-16 2000-11-16 音声認識装置、認識結果修正方法及び記録媒体 Expired - Fee Related JP4509361B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000350193A JP4509361B2 (ja) 2000-11-16 2000-11-16 音声認識装置、認識結果修正方法及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000350193A JP4509361B2 (ja) 2000-11-16 2000-11-16 音声認識装置、認識結果修正方法及び記録媒体

Publications (2)

Publication Number Publication Date
JP2002156996A true JP2002156996A (ja) 2002-05-31
JP4509361B2 JP4509361B2 (ja) 2010-07-21

Family

ID=18823465

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000350193A Expired - Fee Related JP4509361B2 (ja) 2000-11-16 2000-11-16 音声認識装置、認識結果修正方法及び記録媒体

Country Status (1)

Country Link
JP (1) JP4509361B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005076259A1 (ja) * 2004-02-10 2005-08-18 Nec Corporation 音声入力システム、電子機器、音声入力方法、および、音声入力用プログラム
JP2005326505A (ja) * 2004-05-12 2005-11-24 Ntt Docomo Inc 認識システム及び認識方法
WO2012144525A1 (ja) * 2011-04-21 2012-10-26 株式会社エヌ・ティ・ティ・ドコモ 音声認識装置、音声認識方法及び音声認識プログラム
CN103366742A (zh) * 2012-03-31 2013-10-23 盛乐信息技术(上海)有限公司 语音输入方法及系统
JP2020052262A (ja) * 2018-09-27 2020-04-02 富士通株式会社 修正候補提示方法、修正候補提示プログラムおよび情報処理装置
US11798558B2 (en) 2019-07-02 2023-10-24 Fujitsu Limited Recording medium recording program, information processing apparatus, and information processing method for transcription

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09258953A (ja) * 1996-03-26 1997-10-03 Sanyo Electric Co Ltd データ修正方式
JPH11250045A (ja) * 1998-03-04 1999-09-17 Toshiba Corp 文書作成装置、入力処理方法及び記録媒体
JP2000123115A (ja) * 1998-10-16 2000-04-28 Just Syst Corp 手書き文字処理装置、手書き文字処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000242638A (ja) * 1999-02-12 2000-09-08 Microsoft Corp 文字処理装置および方法
JP2001249920A (ja) * 1999-10-05 2001-09-14 Microsoft Corp 推測入力源からのテキストに対して候補を提供する方法およびシステム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09258953A (ja) * 1996-03-26 1997-10-03 Sanyo Electric Co Ltd データ修正方式
JPH11250045A (ja) * 1998-03-04 1999-09-17 Toshiba Corp 文書作成装置、入力処理方法及び記録媒体
JP2000123115A (ja) * 1998-10-16 2000-04-28 Just Syst Corp 手書き文字処理装置、手書き文字処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2000242638A (ja) * 1999-02-12 2000-09-08 Microsoft Corp 文字処理装置および方法
JP2001249920A (ja) * 1999-10-05 2001-09-14 Microsoft Corp 推測入力源からのテキストに対して候補を提供する方法およびシステム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005076259A1 (ja) * 2004-02-10 2005-08-18 Nec Corporation 音声入力システム、電子機器、音声入力方法、および、音声入力用プログラム
JP2005326505A (ja) * 2004-05-12 2005-11-24 Ntt Docomo Inc 認識システム及び認識方法
JP4512417B2 (ja) * 2004-05-12 2010-07-28 株式会社エヌ・ティ・ティ・ドコモ 認識システム及び認識方法
WO2012144525A1 (ja) * 2011-04-21 2012-10-26 株式会社エヌ・ティ・ティ・ドコモ 音声認識装置、音声認識方法及び音声認識プログラム
CN103366742A (zh) * 2012-03-31 2013-10-23 盛乐信息技术(上海)有限公司 语音输入方法及系统
JP2020052262A (ja) * 2018-09-27 2020-04-02 富士通株式会社 修正候補提示方法、修正候補提示プログラムおよび情報処理装置
JP7243106B2 (ja) 2018-09-27 2023-03-22 富士通株式会社 修正候補提示方法、修正候補提示プログラムおよび情報処理装置
US11798558B2 (en) 2019-07-02 2023-10-24 Fujitsu Limited Recording medium recording program, information processing apparatus, and information processing method for transcription

Also Published As

Publication number Publication date
JP4509361B2 (ja) 2010-07-21

Similar Documents

Publication Publication Date Title
US20210073467A1 (en) Method, System and Apparatus for Entering Text on a Computing Device
JP4416643B2 (ja) マルチモーダル入力方法
JP3662780B2 (ja) 自然言語を用いた対話システム
US6510412B1 (en) Method and apparatus for information processing, and medium for provision of information
US10445060B2 (en) System and method for controlling presentations using a multimodal interface
EP1544719A2 (en) Information processing apparatus and input method
US7165034B2 (en) Information processing apparatus and method, and program
JPH06138815A (ja) 手話/単語変換システム
JP3476007B2 (ja) 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体
JP2006053906A (ja) コンピューティングデバイスへの入力を提供するための効率的なマルチモーダル方法
JP3104661B2 (ja) 日本語文章作成装置
JP3795692B2 (ja) 文字処理装置および方法
JP4509361B2 (ja) 音声認識装置、認識結果修正方法及び記録媒体
WO2003079188A1 (fr) Procede de fonctionnement d'un objet logiciel au moyen d'une langue naturelle et programme correspondant
JP2012008375A (ja) 音声記録装置、そのデータ処理方法、およびプログラム
JPH1124813A (ja) マルチモーダル入力統合システム
JP2002268667A (ja) プレゼンテーションシステムおよびその制御方法
CN101604233A (zh) 一种用于交互控制的语音虚拟键盘的使用方法
JPH1139300A (ja) 文字列予測装置、文字列予測方法及び文字列予測プログラムを記録した記録媒体
JP2006065651A (ja) 商標称呼検索プログラム、商標称呼検索装置及び商標称呼検索方法
JP2002117024A (ja) 文章入力方法
JP2005044103A (ja) 文書作成装置、文書作成方法およびプログラム
JP2002014751A (ja) オンラインヘルプシステム
JP2005242720A (ja) データベース検索方法、データベース検索装置およびデータベース検索プログラム
JP2001014304A (ja) 文書作成装置、変換処理方法及び変換処理プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081104

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090203

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090406

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090512

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090901

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091130

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20091209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100119

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100402

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100428

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4509361

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140514

Year of fee payment: 4

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313121

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees