JP4509361B2 - 音声認識装置、認識結果修正方法及び記録媒体 - Google Patents
音声認識装置、認識結果修正方法及び記録媒体 Download PDFInfo
- Publication number
- JP4509361B2 JP4509361B2 JP2000350193A JP2000350193A JP4509361B2 JP 4509361 B2 JP4509361 B2 JP 4509361B2 JP 2000350193 A JP2000350193 A JP 2000350193A JP 2000350193 A JP2000350193 A JP 2000350193A JP 4509361 B2 JP4509361 B2 JP 4509361B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- text
- caret
- correction
- displayed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
本発明は、パーソナルコンピュータなどに用いられ、音声をテキストに変換する音声認識装置であって、特に認識結果として表示されたテキストを修正する場合に用いて好適な音声認識装置と、この音声認識装置に用いられる認識結果修正方法及び記録媒体に関する。
【0002】
【従来の技術】
音声認識装置は、マイクなどを通じて入力された音声をテキストに変換して出力するものであり、パーソナルコンピュータなどに広く用いられている。なお、この音声認識装置は、実際には音声認識用のアプリケーションソフト(音声入力システムと呼ばれる)としてパーソナルコンピュータなどに提供されるものである。
【0003】
このような音声認識装置を用いて音声をテキストに変換した場合、必ずしもユーザが期待している認識結果が得られるとは限らない。そこで、従来の装置では、以下のような操作により修正を可能としていた。
【0004】
まず、テキスト中の修正箇所に“カレット”と呼ばれるカーソルを移動させた後、修正ボタンを押下するなどして修正モードを起動する。修正モードを起動すると、修正ウインドウが開く。この修正ウインドウには、カレットで指定された位置の認識文字文字列に対応した候補の一覧が表示されている。この修正ウインドウから正しい認識候補を選択するか、あるいは、同ウインドウ上で正しい文字列をキー入力することで修正を行う。修正後、終了ボタンを押下して修正ウインドウを閉じる。
【0005】
他の箇所を修正する場合には、上記同様の操作を繰り返す。つまり、次の修正箇所にカレットを移動して修正ウインドウを開き、そのウインドウ上で候補選択あるいはキー入力により修正を行った後、修正ウインドウを閉じるといった操作を行う。
【0006】
【発明が解決しようとする課題】
上記したように、従来、認識結果として表示されたテキストを修正する場合に各修正個所毎にその都度、修正ウインドウを開いて修正を行う必要があった。このため、修正個所が多数あると、その数だけ修正ウインドウを開く操作を繰り返し行わなければならず、操作が煩雑となり、修正に時間がかかるなどの問題があった。
【0007】
本発明は上記のような点に鑑みなされたもので、音声をテキストに変換した際に、その認識結果として得られたテキストの中に多数の修正個所があっても、これらを連続して修正することのできる音声認識装置、認識結果修正方法及び記録媒体を提供することを目的とする。
【0008】
【課題を解決するための手段】
本発明の音声認識装置は、音声を入力する音声入力手段と、この音声入力手段によって入力された音声を認識処理して得られる認識文字列を1以上含んで構成されるテキストを生成すると共に、該音声を認識処理することにより、各認識文字列を修正するための修正文字列を生成するテキスト生成手段と、このテキスト生成手段によって生成されたテキストを表示する表示手段と、特定のキー操作により、上記表示手段に表示された上記テキスト中の1以上の連続する文字から構成される文字列を指定するカレットを移動させるカレット移動手段と、上記カレットにて指定された文字列に対応する修正文字列が存在する場合に、その文字列を修正するために、該文字列に対応する1以上の修正文字列を選択可能に表示する修正文字列表示処理と、この修正文字列表示手段により上記修正文字列が表示されている状態で上記カレットの移動により上記テキスト中の他の文字列が指定された場合に、上記他の文字列に対応した修正文字列を連続的に表示させる表示制御手段とを具備して構成される。
【0009】
このような構成によれば、認識結果として得られたテキストを修正する場合に、上記テキストの中でカレットを移動させながら修正対象とする文字列を指定することにより、その指定された文字列に対応する1以上の修正文字列を選択可能に表示させることができる。また、この修正文字列が表示されている状態で上記カレットの移動により上記テキスト中の他の文字列を指定することで、上記他の文字列に対応した修正文字列を連続的に表示させることができる。したがって、テキスト中に複数の修正個所があっても、これらにカレットを移動させて修正操作を連続的に行うことが可能となる。
【0010】
【発明の実施の形態】
以下、図面を参照して本発明の一実施形態を説明する。
【0011】
図1に本発明の音声認識装置をパーソナルコンピュータで実現した場合の外観構成を示す。なお、本発明の音声認識装置は実際にはアプリケーションソフトとして提供されるものであり、パーソナルコンピュータはこのアプリケーションソフトを搭載することで、音声認識装置としての機能を実行する。
【0012】
図1において、11はパソコン本体であり、ここではノートブックタイプのパソコン本体として示されている。このパソコン本体11には、例えばTFTカラー液晶装置などからなるディスプレイ12や、文字キー、数字キーなどをの各種キーを有するキーボード13が設けられていると共に、ポインティングデバイスとして用いられるマウス14や、マイク15とスピーカ16を備えたヘッドセット17がケーブルを介してパソコン本体11に設けられた専用端子に接続されている。
【0013】
図2は本装置をパーソナルコンピュータで実現した場合のシステム構成を示すブロック図である。
【0014】
パソコン本体11の内部には、CPU21、システムコントローラ22、メモリ23、グラフィクスコントローラ24、キーボードコントローラ(KBC)25、I/Oコントローラ26、HDD27、サウンドコントローラ28、通信コントローラ29などが設けられている。
【0015】
CPU21は、メモリ23に記憶されたプログラムを読み込むことで各種処理を実行する。このCPU21には、システムコントローラ22を介してメモリ23やグラフィクスコントローラ24などが接続される。
【0016】
メモリ23には、オペレーティングシステムや実行対象の各種アプリケーションソフトがHDD27を通じてロードされる。本実施形態では、音声をテキストに変換するための音声認識用のアプリケーションソフトがロードされて実行される。グラフィクスコントローラ24は、LCDなどのディスプレイ12を制御するためのものである。キーボードコントローラ25は、キーボード13やマウス14の入力制御を行う。
【0017】
キーボード13には、文字キー、数字キーの他、上下左右方向へのカレット移動を指示するための4つの矢印キーや、各種指示を行うためのファンクションキーなどが設けられている。また、マウス14はキーボード13と併用されて画面上の位置を指定する場合などのポインティングデバイスとして用いられる。
【0018】
操作I/Oコントローラ26は、HDD27とのインタフェース処理を行う。このHDD27には、音声認識用のアプリケーションソフトを含む各種プログラムが格納されている。
【0019】
サウンドコントローラ28は、マイク15およびスピーカ16を用いて音声の入出力処理を行う。通信コントローラ29は、ネットワークなどを介して外部端末との間の通信制御を行う。
【0020】
図3は本装置の機能構成を示すブロック図である。
【0021】
図3に示すように、本実施形態における音声認識装置を機能的に示すと、音声入力部31、修正指示部32、制御部33、表示部34、カレット位置監視部35、認識結果管理部36、リストテーブル37からなる。
【0022】
音声入力部31は、音声を入力する部分であり、図1に示すマイク15を用いて音声の入力を行う。なお、音声の入力はマイク15に限らず、電話やWaveファイルなどであっても良い。修正指示部32は、音声認識結果として得られたテキストの修正指示やその修正位置を指示する部分であり、図1に示すキーボード13やマウス14の操作によるものである。
【0023】
制御部33は、本装置全体の制御を行うものであり、ここでは音声認識処理部33a及びカレット移動処理部33bを備えて音声認識処理に関する一連の処理を実行する。
【0024】
音声認識処理部33aは音声入力部31から入力された音声を認識処理してテキストに変換する。なお、音声認識の方法としては、一般的に知られている方法を用いるものとする。例えば、入力された音声信号を音響的に解析し、その解析結果として得られたパラメータ(特徴量)を音素レベル単位で音声認識辞書内のデータ(音素の特徴成分を示すデータ)と比較して類似度を計算し、類似度の高い音素を結合して単語や文節の文字列を作成する。カレット移動処理部33bはカレット移動指示に従ってカレットを所定の単位で移動させる処理を行う。カレットとは、画面上で現在選択されている位置を示すものである。
【0025】
表示部34は、上記音声認識処理により認識結果として得られたテキストを表示すると共に、そのテキストの修正が指示された場合には修正ウインドウを表示する。
【0026】
カレット位置監視部35は、現在表示されているカレットの位置を監視する。認識結果管理部36は、リストテーブル37を用いて音声認識処理部33aによって認識結果として得られたテキストの各認識文字列とこれらの候補データを画面上のオフセット位置と共に管理する。また、修正指示があった場合にはリストテーブル37から現在のカレット位置に一致する認識文字列を検索し、その候補データを抽出する。
【0027】
図4にリストテーブル37の構成例を示す。
【0028】
リストテーブル37は、認識結果として得られたテキストを構成する各認識文字列とこれらの候補データを画面上のオフセット位置と共に管理するためのテーブルである。
【0029】
例えば、「オンセイデ ブンショヲ ニュウリョクシマス」といった音声の入力に対し、「音声で文書を入力します」といったテキストが認識結果として得られたとする(図5参照)。このような場合に、所定の単位(単語単位あるいは文節単位)で得られた「音声で」,「文書を」,「入力します」といった各認識文字列とその候補データが画面上のオフセット位置と共にリストテーブル37に管理される。
【0030】
オフセット位置とは画面上に表示された文字列の位置を示すものである。この例では、1文字につき2バイト単位でオフセット位置を表しており、「音声で」のオフセット位置を「0〜5」、「文書を」のオフセット位置を「6〜11」、「入力します」のオフセット位置を「12〜21」で示している。これは、例えば「音声で」の「音」は「0〜1」、「声」は「2〜3」、「で」は「4〜5」で示されるオフセット位置にあることを意味している。
【0031】
なお、ここでは各文字列毎にその先頭位置と終了位置のオフセットが示されているが、少なくとも文字列の先頭位置のオフセットがあれば良い(終了位置は文字列の長さから算出できるため)。
【0032】
候補データは各認識文字列に対応して管理されており、例えば「音声で」に対しては、現在表示されている「音声で」を含め、「混声で」、「混成で」、「音声が」、「音声」…などが候補として挙げられている。なお、これらの認識候補の読みを併せ持つ持つことも可能である。また、実際には、各認識文字列毎にこれらの候補データは候補バッファ(図2に示すメモリ23など)に格納されており、リストテーブル37上にはその候補データの格納位置を示すポインタが記憶される。
【0033】
このようなリストテーブル37を参照することで、現在表示されているカレット位置に一致する認識文字列を検索して、その候補データを表示することができる。この候補データに基づいて現在認識結果として表示されている認識文字列が他の認識候補に置き換えられた場合には、その置換後の文字列の長さに応じてリストテーブル37のオフセット位置が更新される。
【0034】
例えば、テキスト中の「音声で」といった認識文字列が候補データの中の「音声」に置換されると、オフセット位置は以下のように更新される。
【0035】
「音声」 :「0〜3」
「文書を」 :「4〜9」
「入力します」:「10〜19」
また、新たな文字列がキー入力により挿入された場合には、その挿入文字列の長さに応じてリストテーブル37のオフセット位置が更新される。
【0036】
例えば、認識結果として得られた「音声で文書を入力します」の「音声で」と「文書を」との間に「特許」といった文字列がキー入力され、「音声で特許文書を入力します」といった文字列に編集されたとする。このような場合には、文各認識文字列のオフセット位置は以下のように更新される。なお、キー入力された文字列「特許」は認識結果として得られたものではないので、リストテーブル37では管理されず、後に説明するようにカレット移動時に修正対象外として扱われる(図7参照)。
【0037】
「音声で」 :「0〜5」
「文書を」 :「10〜15」
「入力します」:「16〜25」
なお、このリストテーブル37の内容は、修正モードの終了が指示されてから新たに修正モードの起動が指定されるまで保持される。つまり、この間、候補データは保持された状態にあり、何度でも繰り返し修正を行うことができる。
【0038】
図5は本装置の音声入力画面の構成を示す図である。
【0039】
この音声入力画面には、音声入力を指示する音声入力ボタン41、テキストの修正を指示する修正ボタン42の他、音声入力に関する各種の指示ボタンが設けられている。音声入力ボタン41をクリックすると音声入力状態となり、図1に示すマイク15などを通じて音声を入力することにより、その入力された音声がテキストに変換されて画面上に表示される。この例では、「音声で文書を入力します」といったテキストが認識結果として表示されている。
【0040】
ここで、本装置では、所定のモード起動操作により修正モードを起動すると、そのときにカレットCLにて選択されている文字を含む認識文字列の範囲が修正対象として反転表示などの特定の表示形態で表示されると共に、当該認識文字列に対応した候補データを有する修正ウインドウ43が当該認識文字列の近傍に表示される。この例では、カレットCLにて選択された「を」を含む「文書を」が認識文字列の範囲として反転表示されており、その文字列を修正対象とした修正ウインドウ43が修正対象文字列の下に表示されている。
【0041】
なお、上記所定のモード起動操作とは、音声入力画面上の修正ボタン42を押下したり、認識文字列上でマウス14の左ボタンをダブルクリックしたり、特定のファンクションキー(F5キー)を押下するなどがあり、これらのいずれかの操作を行うと、カレットCLの位置に従って認識文字列が自動選択され、その認識文字列に対応した修正ウインドウ43が表示される。
【0042】
修正ウインドウ43は、現在認識結果として表示されている認識文字列を修正するためのウインドウであり、タイトルバー44、エディットボックス45、リストボックス46、番号ボタン47、再生ボタン48、表示ボタン49、確定ボタン50、削除ボタン51などからなる。
【0043】
タイトルバー44には、現在の表示モード(「全候補表示」または「異なる読みで整列表示」)が表示される。
【0044】
エディットボックス45には、現在選択されている認識文字列(単語または文節)が表示される。また、このエディットボックス45にてキー入力により文字列の編集が可能である。
【0045】
リストボックス46には、修正対象として選択されている認識文字列に対応した認識候補の一覧が表示される。この表示モードとして、「全候補表示」と「異なる読みで整列表示」の2つのモードがあり、これらを表示ボタン49にて切り替えることができる。「全候補表示」は音声認識処理(認識エンジン)にて得られた全候補を確信度の高い順に表示するモードである。「異なる読みで整列表示」は候補を異なる読みで表示するモードである。図5の例は「全候補表示」である。「異なる読みで整列表示」に切り替えた場合には、「ぶんしょを」,「ぶんしょうを」,…といったように各候補が読みで表示され、さらにその読みから同音異義語の表示も可能である。
【0046】
番号ボタン47は、リストボックス46内の各候補を番号にて選択するためのボタンである。再生ボタン48は、修正対象文字列の認識元になった生音声の再生を指示するためのボタンである。表示ボタン49は、「全候補表示」と「異なる読みで整列表示」の2つのモードを切り替えるためのボタンである。確定ボタン50は選択候補を確定するためのボタン、削除ボタン51は選択候補を削除するためのボタンである。
【0047】
候補の選択はリストボックス46上の候補をダブルクリックするか、番号ボタン47をクリックするか、リストボックス46上の候補を選択した状態で確定ボタン50をクリックあるいはキーボード13上のリターンキーを押下することで行う。選択された候補はエディットボックス45に現在の候補に代わって表示される。また、画面上で修正対象として選択された認識文字列に代わって当該選択候補の文字列が認識結果として表示される。したがって、所望の候補を選択するだけで、認識文字列の修正を簡単に行うことができる。また、エディットボックス45に所望の文字列をキー入力することでも修正を行うことができる。
【0048】
また、本装置では、所定のモード終了操作にて修正モードを終了するまでは、修正ウインドウ43を以下のような操作により他の認識文字列へ移動させることができる。
【0049】
(1)他の認識文字列を左クリック
マウス14の操作により他の認識文字列を選択して左クリックすると、その認識文字列へカレットCLが移動すると共に修正ウインドウ43が移動する。
【0050】
(2)右/左の矢印キーの押下
キーボード13の右矢印キーを押下すると、次の認識文字列へカレットCLが移動すると共に修正ウインドウ43が移動する。このとき、現在選択されている認識文字列がテキストの末尾にあれば、先頭の認識文字列へ移動する(図6参照)。同様に、キーボード13の左矢印キーを押下すると、1つ前の認識文字列へカレットCLが移動すると共に修正ウインドウ43が移動する。このとき、現在選択されている認識文字列がテキストの先頭にあれば、末尾の認識文字列へ移動する。
【0051】
(3)修正ウインドウ内の削除ボタンのクリック
修正ウインドウ43の下部に設けられている削除ボタン51をクリックすると、次の認識文字列へカレットCLが移動すると共に修正ウインドウ43が移動する。このとき、現在選択されている認識文字列がテキストの末尾にあれば、先頭の認識文字列へ移動する。
【0052】
このように、修正ウインドウ43が表示されている状態では、その都度、修正モードを起動しなくとも、修正ウインドウ43を移動させて他の認識文字列を連続的に修正することができる。
【0053】
なお、上記所定のモード終了操作とは、画面上で認識文字列以外の領域をクリックするか、Escキーなどの特定のキーを押下するなどである。このような操作を行うことで、修正ウインドウ43が閉じて修正モードが終了する。
【0054】
図6は本装置の修正モード時におけるカレットCLの移動を説明するための図である。
【0055】
今、「音声で文書を入力します」といったテキストが認識結果として表示されている場合を想定する。なお、ここでは「音声で/文書を/入力します」(/は文節の区切れを示す)といったように、文節の単位が認識単位であるとする。
【0056】
図6(a)に示すように、カレットCLを「で」の位置に設定して修正モードを起動すれば、「音声で」といった認識文字列が修正対象として反転表示され、その修正対象文字列である「音声で」に対応する候補データを有する修正ウインドウ43が「音声で」の近傍に表示される。各認識文字列に対応した候補データは図4に示すリストテーブル37から得られ、該当する修正ウインドウ43に表示される。
【0057】
ここで、図6(a)の状態で、右矢印キーを押下すると、図6(b)に示すように、次の認識文字列である「文書を」の「を」の位置にカレットCLが移動し、それに伴い「文書を」の近傍に修正ウインドウ43が移動する。この場合、修正ウインドウ43には「文書を」に対応する候補データが表示される(図5参照)。
【0058】
続けて、右矢印キーを押下すれば、図6(c)に示すように、次の認識文字列である「入力します」の「す」の位置にカレットCLが移動し、その近傍に修正ウインドウ43が移動し、そこに「入力します」に対応する候補データが表示される。
【0059】
また、図6(c)の状態つまりテキストの末尾の文字認識文字列にカレットCLがある状態で右矢印キーを押下すれば、図6(d)に示すように先頭の認識文字列「音声で」の「で」の位置にカレットCLが移り、その近傍に修正ウインドウ43が移動して「音声で」に対応した候補データが表示される。
【0060】
同様に、左矢印キーを押下すれば、その押下に伴いカレットCLが1つ前の修正文字列に移動し、それに追従して修正ウインドウ43も移動する。この場合、テキストの先頭の文字認識文字列「音声で」の「で」の位置にカレットCLがある状態で左矢印キーを押下すれば、末尾の認識文字列「入力します」の「す」にカレットCLが移動し、それに伴い「入力します」に対応した修正ウインドウ43が表示される。
【0061】
このようなカレットCLの移動は認識文字列に対してのみ行われ、キー入力された文字列には適用されない。この様子を図7に示す。
【0062】
図7は本装置のキー入力された文字列を含む場合のカレットCLの移動を説明するための図である。
【0063】
今、認識結果として得られた「音声で文書を入力します」の「音声で」と「文書を」といった認識文字列の間に「特許」といった文字列がキー入力されたとする。図7(a)に示すように、「音声で」の「で」の位置にカレットCLがある状態で右矢印キーを押下すると、同図(b)に示すようにキー入力文字列である「特許」を飛ばして次の認識文字列「文書を」の「を」の位置にカレットCLが移動し、「文書を」に対応した候補データを有する修正ウインドウ43が表示される。
【0064】
次に、フローチャートを参照しながら本装置の処理動作について説明する。
【0065】
図8は本装置における音声入力時の処理動作を示すフローチャートである。
【0066】
音声入力部31(マイク15など)により音声が入力されると(ステップA11)、制御部33の音声認識処理部33aにより、入力された音声が音声認識処理されてテキストに変換され(ステップA12)、その変換後のテキストが認識結果として表示部34により画面上に表示される(ステップA13)。詳しくは、入力された音声信号が音響的に解析され、その解析結果として得られたパラメータ(特徴量)が音素レベル単位で音声認識辞書内のデータと比較される。そして、この比較結果に基づいて、類似度の高い音素が結合されて単語や文節の文字列が作成されて表示される。
【0067】
また、入力音声に対応したテキストが表示された際に、そのテキストを構成する各認識文字列に関するリストテーブル37が作成される(ステップA14)。リストテーブル37の一例を図4に示す。この例では、「音声で」、「文書を」、「入力します」といったように、文節単位で得られた各認識文字列とこれらのに候補データがオフセット位置と共に管理されている。
【0068】
ここで、所定の操作により修正モードの起動が指示されると(ステップA15のYes)、現在表示されているカレットCLの位置がカレット位置監視部35により検出され、認識結果管理部36に伝えられる(ステップA16)。
【0069】
認識結果管理部36ではリストテーブル37の各認識文字列のオフセット位置とカレットCLの位置とを比較して、カレットCLの位置に一致する認識文字列を検索する(ステップA17)。該当する認識文字列がある場合、つまり、カレットCLの位置に認識文字列が存在する場合には(ステップA18のYes)、その認識文字列が修正対象として指定されて反転表示される(ステップA19)。詳しくは、カレットCLの位置にある文字を含む認識文字列の範囲が検出され、その認識文字列が修正対象として反転表示される。なお、この修正対象の表示方法は反転表示に限らず、例えば表示色の変更や、アンダーラインの付加など、他の文字列と区別可能な表示形態であれば良い。
【0070】
また、当該認識文字列に対応した候補データがリストテーブル37により取得され、その候補データを有する修正ウインドウ43が当該認識文字列の近傍に表示される(ステップA20)。修正ウインドウ43の一例を図5に示す。この例では、カレットCLの位置にある「を」を含む「文書を」といった認識文字列が修正対象として選択されて反転表示され、「文書を」の候補データを有する修正ウインドウ43が表示されている。
【0071】
修正ウインドウ43が表示された状態で、例えばリストボックス46の中から所望の候補を選択すると、現在カレットCLにて修正対象として選択されている認識文字列がその選択候補に置き換えられる。また、エディットボックス45にてキー入力により現在の認識文字列を編集すれば、その編集された文字列に置き換えられる。このような操作により、認識結果として得られたテキストの文字列を任意に修正することができる。
【0072】
図9は本装置におけるカレット移動時の処理動作を示すフローチャートである。
【0073】
音声認識後、テキスト中の修正個所を指示するべく、修正指示部32(キーボード13またはマウス14)によりカレットCLを移動させると(ステップB11)、まず、現在、修正ウインドウ43が表示されているか否かが判断される(ステップB12)。
【0074】
ここで、修正ウインドウ43が表示されている場合には(ステップB12のYes)、カレット位置監視部35にて移動先のカレットCLの位置が検出されて認識結果管理部36に伝えられる(ステップB13)。認識結果管理部36ではリストテーブル37の各認識文字列のオフセット位置とカレットCLの位置とを比較して、カレットCLの位置に一致する認識文字列を検索し(ステップB14)、該当する認識文字列がある場合には(ステップB15のYes)、その認識文字列が修正対象として指定されて反転表示される(ステップB16)。
【0075】
また、当該認識文字列に対応した候補データがリストテーブル37により取得され、その候補データを有する修正ウインドウ43が当該認識文字列の近傍に表示される(ステップB17)。つまり、修正ウインドウ43が表示されている状態でカレットCLを他の認識文字列上に移動させると、その移動先に修正ウインドウ43も移動する。この場合、修正ウインドウ43の内容は移動先の認識文字列に対応したものである。したがって、複数の修正個所がある場合に、従来のように、各修正個所毎に修正ウインドウ43を表示させて修正するといった操作を繰り返さなくとも、カレットCLを移動させながら連続して修正操作を行うことができる。
【0076】
図10は本装置における修正モード時のカレット移動処理を示すフローチャートである。
【0077】
修正モードが設定されている状態で、例えばキーボード13の右矢印キーの押下によりカレットCLの移動が指示されると(ステップC11のYes)、まず、現在のカレットCLの位置が画面上に認識結果として表示されたテキストの末尾に存在する認識文字列上にあるか否かが判断される(ステップC12)。その結果、カレットCLの位置が末尾以外の認識文字列上にある場合には(ステップC12のNo)、リストテーブル37から当該カレット位置から右方向に存在する次の認識文字列の位置が検出され、その認識文字列上へカレットCLの移動が制御される(ステップC13)。なお、本実施形態では、認識文字列を構成する各文字の最後の文字の位置へカレットCLを移動させるものとする。
【0078】
また、右矢印キーが押下された際にカレットCLの位置がテキストの末尾に存在する認識文字列上にあった場合には(ステップC12のYes)、リストテーブル37から先頭の認識文字列が検出され、その認識文字列上へカレットCLの移動が制御される(ステップC14)。
【0079】
一方、キーボード13の左矢印キーの押下によりカレットCLの移動が指示されると(ステップC15のYes)、まず、現在のカレットCLの位置が画面上に認識結果として表示されたテキストの先頭に存在する認識文字列上にあるか否かが判断される(ステップC16)。その結果、カレットCLの位置が先頭以外の認識文字列上にある場合には(ステップC16のNo)、リストテーブル37から当該カレット位置から左方向に存在する1つ前の認識文字列の位置が検出され、その認識文字列上へカレットCLの移動が制御される(ステップC17)。
【0080】
また、左矢印キーが押下された際にカレットCLの位置がテキストの先頭に存在する認識文字列上にあった場合には(ステップC16のYes)、リストテーブル37から末尾の認識文字列が検出され、その認識文字列上へカレットCLの移動が制御される(ステップC18)。
【0081】
このように、カレットCLを認識単位で移動させることができ、しかも、テキスト中で右方向あるいは左方向に巡回させることができる。したがって、例えば図6に示すように、先頭から順に認識文字列を修正していくような場合において、修正し忘れた認識文字列や修正を誤った認識文字列があった際にはカレットCLを先頭に戻して修正をやり直すことができて便利である。
【0082】
また、このようなカレットCLの移動は認識文字列のみを対象にして行われるため、例えば図7に示すように、認識文字列以外の文字列(ここでは「特許」)が含まれている場合には、その文字列を飛ばしてカレットCLが次の認識文字列に移動する。したがって、認識文字列のみを対象として修正操作を効率的に行うことができる。
【0083】
なお、上記実施形態では、1つの文の中でカレットCLを巡回的に移動させる場合を例にして説明したが、例えば「音声で文書を入力します。特許明細書を入力します。」といったように、複数の文が句点で区切られて連続して音声入力された場合には、それらの文全体を修正対象としてカレットCLを順次移動させる方法の他に、以下のように各文毎にカレットCLを移動させることも可能である。
【0084】
すなわち、今、「音声で/文書を/入力します/。/特許明細書を/入力します/。」(/は文節の区切れを示す)といったように、2つの文からなる認識結果が表示されたとする。なお、ここでは文節の単位が認識単位であるとする。
【0085】
このような場合に、例えば「音声で文書を入力します。」の句点「。」の位置にカレットCLがある状態で右矢印キーが押下されたとき、「音声で」の「で」の位置にカレットCLを移動させる。また、「音声で文書を入力します。」の「で」の位置にカレットCLがある状態で左矢印キーが押下されたとき、当該文(「音声で文書を入力します。」)の末尾にある「。」の位置にカレットCLを移動させる。
【0086】
ここで、「音声で文書を入力します。」の句点「。」の位置にカレットCLがある状態で特定のキー(例えばタブキー)が押下された場合には、次の文である「特許明細書を入力します。」を修正対象として、「特許明細書」の「書」の位置にカレットCLを移動させる。以後、特定のキー(例えばタブキー)が押下されるまでは、当該文(「特許明細書」)を修正対象として、右矢印キーまたは左矢印キーの操作に伴いカレットCLを認識単位で巡回的に移動させる。
【0087】
このようなカレットCLの移動制御は、例えば以下のような処理を追加することで実現できる。
【0088】
すなわち、現在のカレットCLの位置をカレット位置監視部35で監視し、右矢印キーが押下されたときには、カレットCLが句点の位置にあるかか否かをリストテーブル37(句点も1文字として登録されている)を参照して判断し、カレットCLが句点の位置にある場合には当該句点を含む文の先頭の認識文字列上にカレットCLを移動させ、左矢印キーが押下されたときには、カレットCLが文の先頭の認識文字列上にあるか否かをリストテーブル37を参照して判断し、カレットCLが文の先頭の認識文字列上にある場合には当該文の末端の句点の位置にカレットCLを移動させる。
【0089】
また、カレットCLが句点の位置にある状態で、特定のキーが押下された場合にリストテーブル37を参照して当該句点の後に次の文が続いているか否かを判断し、次の文が続いている場合にはその文の先頭の認識文字列にカレットCLを移動させる。
【0090】
なお、上述した実施形態において記載した手法は、コンピュータに実行させることのできるプログラムとして、例えば磁気ディスク(フロッピーディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリなどの記録媒体に書き込んで各種装置に適用したり、通信媒体により伝送して各種装置に適用することも可能である。本装置を実現するコンピュータは、記録媒体に記録されたプログラムを読み込み、このプログラムによって動作が制御されることにより、上述した処理を実行する。
【0091】
【発明の効果】
以上詳記したように本発明によれば、認識結果として得られたテキストを修正する場合に、上記テキストの中でカレットを移動させながら修正対象とする文字列を指定することにより、その指定された文字列に対応する1以上の修正文字列を選択可能に表示させることができ、また、この修正文字列が表示されている状態で上記カレットの移動により上記テキスト中の他の文字列を指定することで、上記他の文字列に対応した修正文字列を連続的に表示させることができる。したがって、テキスト中に複数の修正個所があっても、これらにカレットを移動させて修正操作を連続的に行うことが可能となる。
【図面の簡単な説明】
【図1】本発明の音声認識装置をパーソナルコンピュータで実現した場合の外観構成を示す図。
【図2】本発明の音声認識装置をパーソナルコンピュータで実現した場合のシステム構成を示すブロック図。
【図3】本装置の機能構成を示すブロック図。
【図4】本装置に設けられたリストテーブルの構成を示す図。
【図5】本装置の音声入力画面の構成を示す図。
【図6】本装置の修正モード時におけるカレットの移動を説明するための図。
【図7】本装置のキー入力された文字列を含む場合のカレットCLの移動を説明するための図。
【図8】本装置における音声入力時の処理動作を示すフローチャート。
【図9】本装置におけるカレット移動時の処理動作を示すフローチャート。
【図10】本装置における修正モード時のカレット移動処理を示すフローチャート。
【符号の説明】
11…パソコン本体
12…ディスプレイ
13…キーボード
14…マウス
15…マイク
16…スピーカ
17…ヘッドセット
31…音声入力部
32…修正指示部
33…制御部
33a…音声認識処理部
33b…カレット移動処理部
34…表示部
35…カレット位置監視部
36…認識結果管理部
37…リストテーブル
41…音声入力ボタン
42…修正ボタン
43…修正ウインドウ
CL…カレット
Claims (5)
- 音声を入力する音声入力手段と、
この音声入力手段によって入力された音声を認識処理して得られる1以上の認識文字列と、それ以外の文字列とから構成されるテキストを生成すると共に、該音声を認識処理することにより、上記テキスト中の文字列のうちの認識文字列を修正するための修正文字列を生成するテキスト生成手段と、
このテキスト生成手段によって生成されたテキストを表示する表示手段と、
特定のキー操作により、上記表示手段に表示された上記テキスト中の1以上の連続する文字から構成される文字列のうち、上記テキスト中の上記認識文字列のみを対象にカレットを移動させるカレット移動手段と、
上記カレットにて指定された文字列に対応する修正文字列が存在する場合に、その文字列を修正するために、該文字列に対応する1以上の修正文字列を選択可能に表示する修正文字列表示手段と、
この修正文字列表示手段により上記修正文字列が表示されている状態で上記カレットの移動により上記テキスト中の他の文字列が指定された場合に、上記他の文字列に対応した修正文字列を連続的に表示させる表示制御手段と
を具備したことを特徴とする音声認識装置。 - 上記カレット移動手段は、上記特定のキー操作により上記テキストを構成する各認識文字列毎に上記カレットを移動させることを特徴とする請求項1記載の音声認識装置。
- 上記修正文字列表示手段は、上記修正文字列の候補の一覧を上記カレットにて指定された文字列の近傍に表示することを特徴とする請求項1記載の音声認識装置。
- 音声を認識処理してテキストに変換し、その変換後のテキストを画面上に表示する音声認識装置に用いられる認識結果修正方法であって、
上記音声を認識処理して得られる1以上の認識文字列と、それ以外の文字列とから構成されるテキストを生成すると共に、該音声を認識処理することにより、上記テキスト中の文字列のうちの認識文字列を修正するための修正文字列を生成し、
上記生成されたテキストを表示し、
特定のキー操作により、上記画面上に表示されたテキスト中の1以上の連続する文字から構成される文字列のうち、上記テキスト中の上記認識文字列のみを対象にカレットを移動させ、
上記カレットにて指定された文字列に対応する修正文字列が存在する場合に、その文字列を修正するために、該文字列に対応する1以上の修正文字列を選択可能に表示し、
上記修正文字列が表示されている状態で上記カレットの移動により上記テキスト中の他の文字列が指定された場合に、上記他の文字列に対応した修正文字列を連続的に表示させることを特徴とする認識結果修正方法。 - 音声を認識処理してテキストに変換し、その変換後のテキストを画面上に表示する音声認識プログラムを記録した記録媒体であって、
コンピュータに、
この音声入力手段によって入力された音声を認識処理して得られる1以上の認識文字列と、それ以外の文字列とから構成されるテキストを生成すると共に、該音声を認識処理することにより、前記テキスト中の文字列のうちの認識文字列を修正するための修正文字列を生成するテキスト生成処理と、
このテキスト生成処理によって生成されたテキストを表示する表示処理と、
特定のキー操作により、上記テキスト中の1以上の連続する文字から構成される文字列のうち、上記テキスト中の上記認識文字列のみを対象にカレットを移動させるカレット移動処理と、
上記カレットにて指定された文字列に対応する修正文字列が存在する場合に、その文字列を修正するために、該文字列に対応する1以上の修正文字列を選択可能に表示する修正文字列表示処理と、
この修正文字列表示処理により上記修正文字列が表示されている状態で上記カレットの移動により上記テキスト中の他の文字列が指定された場合に、上記他の文字列に対応した修正文字列を連続的に表示させる表示制御処理と
を実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000350193A JP4509361B2 (ja) | 2000-11-16 | 2000-11-16 | 音声認識装置、認識結果修正方法及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000350193A JP4509361B2 (ja) | 2000-11-16 | 2000-11-16 | 音声認識装置、認識結果修正方法及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002156996A JP2002156996A (ja) | 2002-05-31 |
JP4509361B2 true JP4509361B2 (ja) | 2010-07-21 |
Family
ID=18823465
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000350193A Expired - Fee Related JP4509361B2 (ja) | 2000-11-16 | 2000-11-16 | 音声認識装置、認識結果修正方法及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4509361B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005076259A1 (ja) * | 2004-02-10 | 2005-08-18 | Nec Corporation | 音声入力システム、電子機器、音声入力方法、および、音声入力用プログラム |
JP4512417B2 (ja) * | 2004-05-12 | 2010-07-28 | 株式会社エヌ・ティ・ティ・ドコモ | 認識システム及び認識方法 |
JP5396426B2 (ja) * | 2011-04-21 | 2014-01-22 | 株式会社Nttドコモ | 音声認識装置、音声認識方法及び音声認識プログラム |
CN103366742B (zh) * | 2012-03-31 | 2018-07-31 | 上海果壳电子有限公司 | 语音输入方法及系统 |
JP7243106B2 (ja) * | 2018-09-27 | 2023-03-22 | 富士通株式会社 | 修正候補提示方法、修正候補提示プログラムおよび情報処理装置 |
JP7326931B2 (ja) | 2019-07-02 | 2023-08-16 | 富士通株式会社 | プログラム、情報処理装置、及び情報処理方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09258953A (ja) * | 1996-03-26 | 1997-10-03 | Sanyo Electric Co Ltd | データ修正方式 |
JPH11250045A (ja) * | 1998-03-04 | 1999-09-17 | Toshiba Corp | 文書作成装置、入力処理方法及び記録媒体 |
JP2000123115A (ja) * | 1998-10-16 | 2000-04-28 | Just Syst Corp | 手書き文字処理装置、手書き文字処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2000242638A (ja) * | 1999-02-12 | 2000-09-08 | Microsoft Corp | 文字処理装置および方法 |
JP2001249920A (ja) * | 1999-10-05 | 2001-09-14 | Microsoft Corp | 推測入力源からのテキストに対して候補を提供する方法およびシステム |
-
2000
- 2000-11-16 JP JP2000350193A patent/JP4509361B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09258953A (ja) * | 1996-03-26 | 1997-10-03 | Sanyo Electric Co Ltd | データ修正方式 |
JPH11250045A (ja) * | 1998-03-04 | 1999-09-17 | Toshiba Corp | 文書作成装置、入力処理方法及び記録媒体 |
JP2000123115A (ja) * | 1998-10-16 | 2000-04-28 | Just Syst Corp | 手書き文字処理装置、手書き文字処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2000242638A (ja) * | 1999-02-12 | 2000-09-08 | Microsoft Corp | 文字処理装置および方法 |
JP2001249920A (ja) * | 1999-10-05 | 2001-09-14 | Microsoft Corp | 推測入力源からのテキストに対して候補を提供する方法およびシステム |
Also Published As
Publication number | Publication date |
---|---|
JP2002156996A (ja) | 2002-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3944159B2 (ja) | 質問応答システムおよびプログラム | |
JP3662780B2 (ja) | 自然言語を用いた対話システム | |
KR100457509B1 (ko) | 터치스크린과 음성인식을 통해 동작 제어되는 정보단말기 및 그의 명령 실행 방법 | |
JP3705735B2 (ja) | オンデマンド・インタフェース装置とそのウィンドウ表示装置 | |
US20050131686A1 (en) | Information processing apparatus and data input method | |
JP4006338B2 (ja) | 情報処理装置及びその方法、プログラム | |
JPH06138815A (ja) | 手話/単語変換システム | |
JP2014109889A (ja) | コンテンツ検索装置、コンテンツ検索方法及び制御プログラム | |
WO2006054724A1 (ja) | 音声認識装置及び方法ならびにプログラム | |
JP2003263188A (ja) | 対話フォーカス追跡機能を有する音声命令解釈装置及びその方法並びにその方法を記録したコンピュータで読込み可能な記録媒体 | |
JP2008268477A (ja) | 韻律調整可能な音声合成装置 | |
JP3795692B2 (ja) | 文字処理装置および方法 | |
JP4509361B2 (ja) | 音声認識装置、認識結果修正方法及び記録媒体 | |
JP2008145769A (ja) | 対話シナリオ生成システム,その方法およびプログラム | |
JP2008268478A (ja) | アクセント調整可能な音声合成装置 | |
JP7063844B2 (ja) | ロボット教示装置 | |
JP3927800B2 (ja) | 音声認識装置及び方法、プログラム、並びに記憶媒体 | |
JP7243106B2 (ja) | 修正候補提示方法、修正候補提示プログラムおよび情報処理装置 | |
JP2003030187A (ja) | 自動通訳システム、会話学習装置、自動通訳装置及びその方法並びにそのプログラム | |
JP2012008375A (ja) | 音声記録装置、そのデータ処理方法、およびプログラム | |
WO2003079188A1 (fr) | Procede de fonctionnement d'un objet logiciel au moyen d'une langue naturelle et programme correspondant | |
JP3903841B2 (ja) | 自動通訳装置及び自動通訳用プログラム | |
JP2010002830A (ja) | 音声認識装置 | |
JP2005242720A (ja) | データベース検索方法、データベース検索装置およびデータベース検索プログラム | |
JPH1139300A (ja) | 文字列予測装置、文字列予測方法及び文字列予測プログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060120 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080929 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081104 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090203 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090406 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090512 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090901 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091130 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20091209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100119 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100126 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100402 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100428 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130514 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4509361 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130514 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130514 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140514 Year of fee payment: 4 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313121 Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |