JP2008083410A - 音声認識装置及びその方法 - Google Patents

音声認識装置及びその方法 Download PDF

Info

Publication number
JP2008083410A
JP2008083410A JP2006263462A JP2006263462A JP2008083410A JP 2008083410 A JP2008083410 A JP 2008083410A JP 2006263462 A JP2006263462 A JP 2006263462A JP 2006263462 A JP2006263462 A JP 2006263462A JP 2008083410 A JP2008083410 A JP 2008083410A
Authority
JP
Japan
Prior art keywords
character
range
candidate
numeric
numbers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006263462A
Other languages
English (en)
Inventor
Masato Yajima
真人 矢島
Noriko Yamanaka
紀子 山中
Yukihiro Fukunaga
幸弘 福永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2006263462A priority Critical patent/JP2008083410A/ja
Publication of JP2008083410A publication Critical patent/JP2008083410A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】入力された数字区間に含まれる隣接する数字2文字が特定の範囲を意図していると判断された場合に、認識候補に「〜」「、」などの範囲を示す文字を前記2文字の間に挿入した候補を認識結果に示すことができる音声認識装置を提供する。
【解決手段】入力される音声信号を認識辞書を用いて単語列に変換する音声認識部102と、連続する単語列の品詞から数字文節を構成する範囲を切り出す数字文節解析部104と、連続する数字2文字とその後方の条件から特定の範囲を示す数字表現であることを知り、該文字間に範囲文字挿入用コードを付与する範囲文字挿入部105と、入力された数字文字列を、漢数字、アラビア数字、桁の有無など表記可能なパターンに展開し、更に数字文字列に範囲文字挿入用コードが含まれる場合、該コードを適当な範囲文字に置換した候補を作成する候補展開部107とを有する。
【選択図】 図1

Description

本発明は、数字入力時の認識候補作成機能を有する音声認識装置及びその方法に関するものである。
音声認識装置を用いて数値を入力する場合、桁付きあるいは桁なしの二種類の方法がある。これらによって入力された数値は、漢数字またはアラビア数字として認識される。「万」「百」等の桁、カンマの付与も認識モード等の状態で決定される。
従来の音声認識装置(例えば、特許文献1と特許文献2参照)は、発声した通りの表記に変換することを目的としており、「5人(ごにん)」などの入力では問題ないが、「5、6人」を入力する場合は、「ごてんろくにん」などと発声する必要があった。一方、音声認識を意識しない場合は「ごろくにん」と発声するのが自然であり、この発声を認識させると棒読みと判定され「56人」との表記になってしまった。
特開2001−101176公報 特開2000−20085公報
一般的に、述べようとする数値が明確でないが特定の範囲を有することが判明している場合で、かつ、前記範囲の数字が連続している場合、例えば「5から6」「5万から6万」「15から16」などを「から」や先行語の桁の一部を省略し、「ごろく」「ごろくまん」「じゅうごろく」と読むことが多い。
従来の音声認識装置では、入力された読み通りに認識候補を出力するため、オペレータは前記入力の際には認識結果を意識して「5〜6」であれば「ごからろく」、「5、6」であれば「ごてんろく」等のように発声する必要があった。
また、話し手が音声認識を意識しない使用法、例えば放送や録音、電話音声を音声認識システムで文字化する場合では、「から」などを省略した「ごろく」などで入力される場合が多く、認識結果には入力音声に従って「56」と出力されてしまい、発話者が意図する表記にオペレータが別途修正する必要があった。
そこで、本発明は上記の問題を解決するためのものであり、入力された数字区間に含まれる隣接する数字2文字が特定の範囲を意図していると判断された場合に、認識候補に「〜」「、」などの範囲を示す文字を前記2文字の間に挿入した候補を認識結果に示すことができる音声認識装置及びその方法を提供することを目的とする。
本発明は、入力された音声信号を文字コードに変換する音声認識装置において、前記音声信号を認識辞書を用いて、文字コードよりなる文字から構成される単語列として音声認識する音声認識手段と、前記単語列に含まれる単語が、数を表す文字である数字の連続、または、桁を表す文字を含んだ数字の連続である場合に、前記各文字を結合し数字文節を作成する数字文節作成手段と、(1)前記数字文節内の連続する2つの数字の文字コードを数値化し、前記2文字の文末側文字に対応する数値が、前記2つの数字の文頭側文字に対応する数値に1を加算した値であり、かつ、(2)前記文末側文字が前記数字文節の末尾、または、前記数字文節内において前記文末側文字の次の文字が桁を表す文字のみである場合に、(3)前記2つの数字の間に範囲文字挿入用コードを挿入する範囲文字挿入手段と、前記数字文節の各文字の文字コード及び前記範囲文字挿入用コードを、範囲文字を含んだ数字の表記パターンに展開する数字展開手段と、を具備したことを特徴とする音声認識装置である。
本発明によれば、特定の範囲を有する数字を発声する際に、「から」等の範囲を示す語句を発声することなしに、2文字の数字の並びと、数字文節長、桁の位置などから判断し、適切に範囲を示す語句を挿入した認識候補を提供できる。
以下、図面を参照して本発明の実施形態の音声認識装置について説明する。
(第1の実施形態)
以下、本発明の第1の実施形態の音声認識装置について図1〜図2に基づいて説明する。
(1)音声認識装置の構成
図1は、本実施形態の音声認識装置を示したブロック構成図である。
図1に示すように、音声認識装置は、日本語の音声認識であり、入力装置101、音声認識部102、認識辞書103、数字文節解析部104、範囲文字挿入部105、数字文節バッファ106、候補展開部107、次候補バッファ108、範囲文字テーブル109、出力装置110、文書バッファ111から構成される。
なお、音声認識部102、数字文節解析部104、範囲文字挿入部105、候補展開部107の各機能は、コンピュータに記憶されたプログラムによって実現される。
入力装置101は、発声された音声入力を電気信号に変換するマイクあるいは、メディア等の記録媒体から記録済みの音声を電気信号に変換して再生するプレイヤーである。オペレータは、入力装置101に発声し直接音声を入力するか、あるいは、入力装置101を操作し音声を再生する。
音声認識部102は、前記の音声信号を認識辞書103を参照し文字や単語、あるいは文節等の文字コードに変換する。本実施形態においては音声認識結果は単語単位であり、品詞、読みの情報が付与されているものとする。
数字文節解析部104は、音声認識部102が出力する品詞を判別し、数字単語であった場合、該単語を数字文節バッファ106に格納する。
範囲文字挿入部105において、数字文節解析部104が数字文節が終了すると共に、数字文節バッファ106に格納された単語表記を調査し隣接する2文字が特定の範囲を意図していると判断した場合、前記文字間に範囲文字挿入用制御コードを挿入し、候補展開部107へ送付する。
候補展開部107では、入力された数字文字列を表記可能なアラビア数字、全半角、漢数字、ローマ数字、桁有無、コンマ有無などのパターンに展開する。ここで、前記数字文字列に範囲文字挿入用制御コードが含まれていた場合、該制御コードはそのままとし前後を各々のパターンに展開した上で前側、制御コード、後側を再結合し次候補バッファ108に格納する。
また、候補展開部107では、次候補バッファ108に格納済みの表記を順次取り出し、範囲文字挿入用制御コードが含まれる場合、該コードを範囲文字テーブル109に記載されている文字コードに置換する。ここで、範囲文字テーブル109には、範囲を示す文字コードと組み合わせて良い数字部分の表記の種類が格納されているものである。
全ての次候補バッファ108格納の文字列に対して処理が終わると、出力装置110に前記次候補バッファ108格納の文字列を表示する。
オペレータが候補を選択した場合、該候補文字列は文書バッファ111に格納される。
(2)音声認識装置の処理
図2は、本実施形態の音声認識装置の処理の流れを示したフローチャートである。この処理は、入力された音声から数字文節を抽出し、数値が明確でないが特定の範囲を有する数値であるかを調査し、該当する場合は範囲文字を挿入した候補を作成する。
入力装置101から入力された情報が音声信号であった場合は(ステップ201、202)、音声認識部102において例えば品詞を持った単語に認識される(ステップ203)。
認識結果の単語が数字あるいは「千」「万」等の桁であった場合、数字文節解析部104を通して数字文節バッファ106に格納される(ステップ205)。一方、認識結果が数字、桁以外の場合には、認識結果を候補展開部107に送る(ステップ204)。
直前入力から一定の時間が経過した場合、数字文節解析部104は数字文節バッファ106に単語が格納されたかを調査する(ステップ206)。
数字文節バッファ106に格納があった場合、該格納文字列を調査するためのカウンタiに0を代入し初期化する(ステップ207)。
数字文節バッファ106に格納がなかった場合は、候補展開部107から次候補バッファ108に格納する(ステップ215)。
数字文節解析部104では数字文節バッファ106格納中の文字列の文字[i]が数字でかつ文字[i+1]も数字であるかを調査する(ステップ208)。ここで数字とは桁以外である。何れかまたは両方が数字以外の場合にはカウンタiを進め(ステップ213)、文字列が終了でなければ再びステップ208を実行する。
一方、文字[i]及び文字[i+1]が共に数字であった場合、文字[i]を数値化した値+1が文字[i+1]を数値化した値が同値であるかを調査する(ステップ209)。
同値でなかった場合は、ステップ213でカウンタiを進める。
同値の場合は、更に、i==0であるか、文字数がi+2文字か、文字数がi+3文字で文字[i+2]が桁であるかを調査する(ステップ210)。
何れにも該当しない場合は、ステップ213に進み、何れかに該当した場合は、数字文節バッファ106格納文字列に既に範囲文字挿入用制御コードが含まれているかを調査し(ステップ211)、使用済みの場合はステップ213に進み、未使用の場合は、範囲文字挿入部105では文字[i]と文字[i+1]の間に範囲文字挿入用制御コードを挿入する(ステップ212)。
次にカウンタiを進める(ステップ213)。ここで、文字列が終了、すなわち文字[i]がNULLのような終了コードでなければステップ208に戻り(ステップ214)、次の文字との比較を行う。文字列が終了の場合は、該文字列を候補展開部107を通して次候補バッファ108に格納する(ステップ215)。
候補展開部107では、次候補バッファ108の文字列を調べ、範囲文字挿入用制御コードが含まれている場合、該制御コードの前側文字列、後側文字列をそれぞれ候補展開する(ステップ216、217)。ここで候補展開とは、数字文節に対してであれば、例えばアラビア数字/漢数字、半角/全角、桁の有無、コンマの有無などの組み合わせ可能な表記を作成し候補に加えることである。また、数字文節以外の一般語に関しては、例えば認識単語と同音語を辞書から検索し候補に加える、あるいは表記可能な送り仮名を付与した候補を加えるなどの処理を示す。
候補展開部107では、次候補バッファ108格納の数字文節候補を取り出し、範囲文字挿入用制御コードを、置換可能な範囲文字を範囲文字テーブル109より抽出し次候補バッファ108に格納する(ステップ218)。1表記、例えば漢数字桁なしの数字文節に対して、範囲文字を複数種類用いて全ての組み合わせを次候補バッファ108に格納してもよい。ステップ216において範囲文字挿入用制御コードが存在しなかった場合は、前述の候補展開を行い(ステップ219)、次候補バッファ108に格納する(ステップ220)。
候補展開が終了すると、候補展開部107は1位候補を文書バッファ111に格納すると共に出力装置110に表示する(ステップ221、222)。
(第2の実施形態)
以下、本発明の第2の実施形態の音声認識装置について図3〜図4に基づいて説明する。
(1)音声認識装置の構成
図3は、本実施形態の音声認識装置を示したブロック構成図である。
図3に示すように、音声認識装置は、入力装置301、音声認識部302、認識辞書303、数字文節解析部304、範囲文字挿入部305、数字文節バッファ306、候補展開部307、次候補バッファ308、範囲文字テーブル309、出力装置310、文書バッファ311、数詞接辞判定部312、数詞接辞テーブル313、認識結果バッファ314から構成される。
なお、入力装置301から数字文節バッファ306は、図1に示す入力装置101から数字文節バッファ106と同様である。
数字文節解析部304から候補展開部307に文字列が送付されると、音声認識部302は次単語に対しての認識処理を開始し、その結果を認識バッファ314に格納する。
候補展開部307では、入力された数字文字列を表記可能なアラビア数字、全半角、漢数字、桁有無、ローマ数字、コンマ有無などのパターンに展開する。ここで、前記数字文字列に範囲文字挿入用制御コードが含まれていた場合、該制御コードはそのままとし前後を各々のパターンに展開した上で前側、制御コード、後側を再結合し次候補バッファ308に格納する。
また、候補展開部307では、次候補バッファ308に格納済みの表記を順次取り出し、範囲文字挿入用制御コードが含まれる場合、該コードを範囲文字テーブル309に記載されいる文字コードに置換する。数詞接辞判定部312では、直前に入力された単語が数詞接辞テーブル313に登録されている数詞接頭語であるかを文書バッファ311から調査する。
さらに、次入力単語が前記数詞接辞テーブル313に登録されている数詞接尾語であるかを認識結果バッファ314を調査する。ここで、数詞接辞テーブル313には「約」等の数詞接頭、「円」等の数詞接尾が登録されているものとする。
また、全ての数詞接辞を処理対象とする場合は、数詞接辞テーブル313は特に必要としない。数詞接辞判定部312において直前直後単語の何れかが数詞接辞であると判定された場合は、次候補バッファ308に格納されといる範囲文字が挿入された候補の出力優先度を調整して、通常より出やすくする。候補展開部307では次候補バッファ308の1位候補を表示装置310の画面上に表示すると共に文書バッファ311に格納する。
(2)音声認識装置の処理
図4は、本実施形態の音声認識装置の処理の流れを示したフローチャートである。すなわち、候補展開された数字文節候補の出力優先順位を変更する処理である。
図4の丸数字1〜丸数字2は、図2のステップ221の直前に挿入される。
候補展開部307により範囲文字を含む数字文節が次候補バッファ308に格納され場合、数詞接辞判定部312は文書バッファ311から、次候補バッファ308格納中の候補の挿入直前位置に候補文節が存在する場合(ステップ401)、文書バッファ311より該文節を取り出し(ステップ402)、数詞接辞テーブル313に登録されているかを調査する(ステップ403)。
登録済みであった場合には、次候補バッファ308に格納されている範囲文字を含む候補の出力優先度を上げる(ステップ407)。
登録されていなかった場合は、認識バッファ314に直後文節が格納されているかを調査し(ステップ404)、未格納の場合には丸数字2へ進み、次候補バッファ308に格納済みの優先順位の1位候補を出力装置310上に表示する。
直後文節が格納済みの場合は、該文節を取得し(ステップ405)、数詞接辞テーブル313に登録されているかを調査する(ステップ406)。
登録済みであった場合には、次候補バッファ308に格納されている範囲文字を含む候補の出力優先度を上げる(ステップ407)。
登録されていなかった場合は、丸数字2へ進み、次候補バッファ308に格納済みの優先順位の1位候補を出力装置310上に表示する。
(第3の実施形態)
以下、本発明の第3の実施形態の音声認識装置について図5〜図6に基づいて説明する。
(1)音声認識装置の構成
図5は、本実施形態の音声認識装置を示したブロック構成図である。
図5に示すように、音声認識装置は、入力装置501、入力制御部502、音声認識部503、認識辞書504、数字文節解析部505、範囲文字挿入部506、数字文節バッファ507、候補展開部508、範囲文字テーブル509、次候補バッファ510、次候補バッファ510、範囲文字学習テーブル511、候補選択部512、文字バッファ513、出力装置514から構成される。
入力装置501は、発声された音声入力を電気信号に変換するマイクあるいは、メディア等の記録媒体から記録済みの音声を電気信号に変換して再生するプレイヤー及び、キーボード、マウス等である。オペレータは入力装置501に発声し直接音声を入力するか、あるいは、入力装置501を操作し音声を再生する。
入力制御部502は、音声信号を音声認識部503に送る。
音声認識部503は、前記音声信号を認識辞書504を参照し文字や単語あるいは文節等の文字コードに変換する。
数字文節解析部505は、音声認識部503が出力する文字コードを判別し、数字文節あった場合、該文字列を数字文節バッファ507に格納する。
数字文節解析部505は数字文節が終了すると共に、数字文節バッファ507に格納された文字列を調査し隣接する2文字が特定の範囲を意図していると判断した場合、範囲文字挿入部506では前記文字間に範囲文字挿入用制御コードを挿入し、候補展開部508へ送付する。
候補展開部508では、入力された数字文字列を表記可能なアラビア数字、全半角、漢数字、桁有無、コンマ有無などのパターンに展開する。ここで、前記数字文字列に範囲文字挿入用制御コードが含まれていた場合、該制御コードはそのままとし前後を各々のパターンに展開した上で前側、制御コード、後側を再結合し次候補バッファ510に格納する。
また、候補展開部508では、次候補バッファ510に格納済みの表記を順次取り出し、範囲文字挿入用制御コードが含まれる場合、該コードを範囲文字テーブル509に記載されている文字コードに置換する。全ての次候補バッファ510格納の文字列に対して処理が終わると、候補展開部508は範囲文字学習テーブル511を参照し次候補バッファ510の候補群に対して出力順位を決定する。ここで範囲文字学習テーブル511には、例えば過去にオペレータにより選択された数字文節の文字種、桁の有無などの種別と、前記数字文節において使用された範囲文字の種別が時間順に格納されているものである。
候補展開部508は、範囲文字学習テーブル511に格納されている直近使用順に、次候補バッファ510の格納の数字文節の種別及び範囲文字が一致する候補を優先的に出力するよう順位付けする。
候補展開部508では1位に優先付けられた候補を出力装置514に表示すると共に、文書バッファ311に次候補バッファ510格納の候補を格納する。
一方、入力装置501に対してオペレータが候補一覧の取得を指示した場合、入力制御部502は一覧取得を指示された文節あるいは単語情報を候補選択部512に伝える。候補選択部512は該当する候補群を文書バッファ513より取り出し出力装置514上に表示する。
次に、入力装置501においてオペレータから特定の候補の選択が指示された場合、入力制御部502は該候補の情報を候補選択部512に伝える。
候補選択部512では選択された候補が数字文節でありかつ範囲文字を含んでいるかを範囲文字テーブル509より調査し、数字文節の種別と共に範囲文字学習テーブル511に格納する。また、候補選択部512は選択された候補を出力装置514に表示する共に候補群を文書バッファ513に再格納する。
(3)オペレータが選択する際の処理
図6(a)は、範囲文字を含む候補をオペレータが選択する際の処理の流れを示したフローチャートである。
オペレータがキーボードあるいはマウス等の入力装置501から、候補一覧の表示を指示したと入力制御部502において判断された場合(ステップ601)、候補選択部512は文書バッファ513より指示された文節の候補を取得し、次候補バッファ510に格納する(ステップ602)。
本実施形態においては、認識処理手続き後の候補展開において1位候補と共に作成された次候補群も併せて文書バッファ513に格納されているものとする。
また、別の実施形態としては、次候補群は文書バッファ513に格納せずに、認識時の音声情報等を別途保持し、再度候補展開を行うなどしてもよい。
候補選択部512は取得した候補一覧を出力装置514上に表示する(ステップ603)。入力装置501の入力からオペレータが候補一覧から特定の候補を選択したと入力制御部502が判断した場合、候補選択部512は次候補バッファ510格納の該候補を1位にする(ステップ605)。
次に、候補選択部512は該候補が数詞である場合に文字列を調査し(ステップ611)、範囲文字学習テーブル511に登録されている範囲文字が存在するかを調査する(ステップ606)。
範囲文字が含まれていた場合は、数字文節属性を調査し(ステップ612)、範囲文字と共に範囲文字学習テーブル511に格納する(ステップ607)。
ここで、範囲文字学習テーブル511には、最新学習順に並び格納されるものとし、同一の数字属性、範囲文字の組み合わせは重複しないように、必要に応じて更新処理を行う。候補選択部512は選択された1位候補を出力装置514上に表示されている候補と置換し再表示する(ステップ608)。
更に、文書バッファ513格納の文節候補を候補順位を変更した次候補バッファ510格納の文節候補に置換し(ステップ609)、出力装置514に表示している候補一覧を消去する(ステップ610)。
(4)出力優先順位を変更する際の処理
図6(b)は、候補展開された数字文節候補の出力優先順位を変更する際の処理の流れを示したフローチャートである。
図6の丸数字3〜丸数字4は図2のステップ221の直前に挿入される。
候補展開部508において、数字文節の候補展開が行われ次候補バッファ510に候補が格納された場合、候補展開部508は範囲文字学習テーブル511に格納データがあるかを調査する(ステップ651)。
格納データがある場合は、カウンタjを初期化する(ステップ652)。ここでカウンタjは次候補バッファ510格納の候補を順次探索するためのカウンタであり、カウンタを進めながら全ての候補が終了するまでステップ653からステップ660を繰り返し実行する。
また、範囲文字学習テーブル511格納の学習データを順次参照するためのカウンタkを初期化し(ステップ654)、学習データが存在する間、ステップ655からステップ659を繰り返し実行する。
カウンタj、kのセットが行われると、候補[j]の数字属性と学習[k]の数字属性が一致するかを調査し(ステップ656)、一致する場合は更に候補[j]の数字属性と学習[k]の範囲文字が一致するかを調査し(ステップ657)、一致する場合は、候補[j]の出力優先度を上げるためにスコアに例えば50−kを加点する(ステップ658)。
ここで、加点する数値は直近に学習された数字属性及び範囲文字が一致した候補ほど優先的に出力される値であればよい。全ての候補についての処理が終了した後、次候補バッファ510格納の候補をスコア順にソートし再格納する(ステップ661)。
なお、「数字属性」とは、漢数字、アラビア数字、ローマ数字であるか、全角、半角であるかを示す属性である。
「数字文節属性」とは、この文節に含まれる数字の数字属性に加えて、桁の有無、種別を示す属性である。
(第4の実施形態)
以下、本発明の第4の実施形態の音声認識装置について図7〜図8に基づいて説明する。
(1)音声認識装置の構成
図7は、本実施形態の音声認識装置を示したブロック構成図である。
図7に示すように、音声認識装置は、入力装置701、入力制御部702、音声認識部703、認識辞書704、数字文節解析部707、範囲文字挿入部706、数字文節バッファ707、候補展開部708、範囲文字テーブル709、次候補バッファ710、次候補バッファ710、範囲文字学習テーブル711、候補選択部712、文字バッファ713、出力装置714形態素解析部715、形態素解析辞書716、文節構成部717から構成される。
音声入力及びオペレータの候補選択処理に関しては、図7における力装置701から出力装置714は図5に示す入力装置501から出力装置514と同様である。
入力装置701は、ファイル保存済みの文書等の入力も可能であり、文字コードが出力される。入力装置701から既存文書がファイルより入力されると、文字コードデータは入力制御部702から形態素解析部715に送られる。
形態素解析部715では形態素解析辞書716を参照し、単語切りされる。形態素解析された単語列は、文節構成部717によって音声認識部703が出力する文節と同一の単位に結合される。また、数字単語あるいは文節間に範囲文字が存在するかを範囲文字テーブル709を参照することによって調査し、存在した場合は、前後の数字単語または文節と該範囲文字を結合し文節を作成する。
作成された文節は逐次候補選択部712に送られ、オペレータが選択した文節候補と同様の扱いとする。範囲文字を含んだ数字文節の場合も同様で、数字種別と範囲文字は範囲文字学習テーブル711に格納する。
(2)音声認識装置の処理
図8は、音声認識装置において、既存文書をファイル等から読み込んだ場合の処理の流れを示したフローチャートである。
オペレータがファイル等の入力装置701から既存文書を読み込んだと入力制御部702が判断した場合(ステップ801)、形態素解析部715では文書終了まで1文毎に切り出しを行い(ステップ802、803)、形態素解析辞書717を参照し形態素解析を行う(ステップ804)。
文節構成部717は形態素解析結果の単語を音声認識部503が出力するのと同様の文節に接合する(ステップ805)。
ここで、数字単語間に範囲文字テーブル709登録の文字が挟まれた場合、数字文節としてまとめる。
1文に対しての文節作成が終了すると、作成した全ての文節を調査するためにカウンタmを初期化し(ステップ806)、候補選択部に送付する。
カウンタmを進めながら1文に含まれる全ての文節の処理が終了するまでステップ807からステップ811を繰り返す。
候補選択部712では文節[m]が数字文節である場合(ステップ808)、更に範囲文字が含まれているかを調査する(ステップ809)。
範囲文字が含まれていた場合は、数字属性と範囲文字を範囲文字学習テーブル711に格納する。
ここで、範囲文字学習テーブル711には、最新学習順に並び格納されるものとし、同一の数字属性、範囲文字の組み合わせは重複しないように、必要に応じて更新処理を行う。
(第5の実施形態)
以下、本実施形態の音声認識装置について図9〜図14に基づいて説明する。
(1)音声認識装置の構成
図9は、音声認識装置の第5の実施形態を示したブロック構成図である。
図9に示すように、音声認識装置は、入力装置901、音声認識部902、認識辞書903、数字文節解析部904、範囲文字挿入部905、数字文節バッファ906、候補展開部907、次候補バッファ908、範囲文字テーブル909、出力装置910、文書バッファ911、数字読み判定部912、数字読みテーブル913から構成される。
図9において入力装置901から認識辞書903及び候補展開部907から文書バッファ911は、図1に示す入力装置101から認識辞書103及び候補展開部107から文書バッファ111と同様である。
数字文節解析部904は、音声認識部902から単語列が入力されると該単語が数字である場合、数字文節バッファ906に格納する。
数字文節解析部904は、連続する数字単語の前記数字文節バッファ906への格納が終了すると、数字読み判定部912に対して読みの調査を指示する。
数字読み判定部912では、数字読みテーブル913を参照し入力された数字文節が棒読みであるかを判定する。例えば、数字読みテーブル913には「にー」は棒読み、「まん」は桁読み、「さん」は棒読み・桁読み両方可などといった情報が登録されている。数字文節が棒読みでないと判定された場合のみ、数字文節解析部904は隣接する2文字が特定の範囲を意図しているかの判断を行い、意図していたと判断された場合は、範囲文字挿入部905によって範囲文字挿入用制御コードを挿入し、棒読みであった場合は範囲文字の挿入は行わない。
(2)音声認識装置の処理
図10は、本実施形態の音声認識装置の処理の流れを示すフローチャートである。すなわち、数字の認識結果が数字文節バッファ906に格納された後に、範囲文字挿入に入るか否かの決定する処理である。
丸数字5は図2のステップ206の直後に挿入され、丸数字6はステップ207の直前に、丸数字7はステップ215に接続する。
音声認識結果が数字であり数字文節解析部904によって結合され数字文節バッファ906に格納されると数字文節を構成する単語を逐次調査するためのカウンタnを初期化する(ステップ1001)。
次に、数字読み判定部912は数字文節構成単語が終了するまで単語[n]の読みが桁読みのみ可の語であるかを調査し、桁読みのみの語であれば丸数字7へ進み範囲文字の挿入判定へ進む(ステップ1003)。
カウンタnを進めながら(ステップ1004)、全ての構成単語を調査し終わると(ステップ1002)、再びカウンタnを初期化し、同様に棒読みのみ可の語がないかを調査し(ステップ1007)、棒読みのみの語があった場合は、丸数字6へ進み範囲文字を挿入せずに通常の候補展開のみを行う。
また、全ての構成単語で棒読みのみ可の語がなかった場合は、丸数字7へ進み範囲文字の挿入判定を行う(ステップ1006)。
(3)範囲文字の例
図11は、範囲文字の例であり、範囲文字テーブル109等に格納されている。
格納されている情報は、範囲文字として使われる表記と、該表記をコード化したID、属性、及び使用可能な数字文節の種別である。例えば、「−」であれば、アラビア数字桁有りと、アラビア数字一桁が適用となっているので、「1−2万」や「2−3」は表記可能であるが、半角アラビア数字の「1−2」や漢数字の「五−六」の表記は生成しないことになる。
(4)数字文節バッファ106及び次候補バッファ108の格納例
図12は、数字文節バッファ106及び次候補バッファ108の格納例である。
音声認識部102で認識された単語は例えば品詞が数詞である間、数字文節バッファ106に格納され図12(a)に示す状態となる。図中の1行が、1単語に相当する。
数字文節解析部104は、前記数字文節バッファ106の単語を順に調べ「五」と「六」が隣接しておりかつ数字が連続していることを知る(ステップ208、209)。更に次の文字が「万」で桁となり数字文節が終了していることを知る(ステップ210)。
ここで、範囲文字挿入用コードを「五」と「六」の間に挿入し(ステップ211、212)、図12(b)に示す格納状態となる。
図12(c)は、従来の音声認識装置による候補展開の例であり、図12(a)の数字文節を候補展開し、漢数字桁あり、漢数字桁なし、アラビア数字桁有り等の表記可能な候補を作成する。
一方、音声認識装置においては、図12(b)の数字文節が候補展開部107に送付される。候補展開部107では、入力文字列を候補展開し例えば「十五#六万」を生成する。ここで#は範囲文字挿入用コードを示す。
また、数字文字列の表記属性としては漢数字桁ありとなる。次に範囲文字テーブル109を参照すると図11に示したように漢数字桁有りで使用できる範囲文字は「、」「・」「〜」であることがわかる。
ここで、展開された候補の範囲文字挿入用コードを範囲文字に置換すると「十五、六万」「十五・六万」「十五〜六万」なる候補を生成することができる。更に、従来の範囲文字を挿入しない「十五六万」も生成され、候補全体では、図12(d)に示した候補が次候補バッファ108に格納されることになる。
(5)範囲文字学習テーブル511の格納例を
図13(a)は、範囲文字学習テーブル511の格納例を示す図である。
オペレータが数字文節の候補を選択あるいは確定処理した場合、例えば「十五〜六万」を選択した場合、優先順位0の位置に数字属性である漢桁(漢数字桁ありを意味する)と、範囲文字「〜」の属性である範2(図11参照)が格納される。ここで、既に範囲文字学習テーブルにデータが格納済みの場合、優先順位0の位置のデータは優先順位1の位置に、優先順位1の位置のデータは2の位置に順次繰り下がる。また、優先順位0の位置に格納しようとしたデータと同様の数字属性及び範囲文字属性が登録済みであれば該データは消去する。
また、範囲文字学習テーブルの格納状況が図13(a)に示す状態で、図12(d)に示す候補が次候補バッファに格納される場合には、図6ステップ658に従って図13(b)に示すスコアが付与される。1位認識候補の決定及び候補一覧の表示の際には前記スコアの最も大きな値の候補が優先される。
(6)数字読みテーブル913の格納例
図14は、数字読みテーブル913の格納例を示す図である。
例えば、数字文節の読みが「いち・に」であれば両者とも桁読み・棒読み可であるので、範囲文字が挿入されるが、「いち・にー」の場合は後者が棒読みのみ可の読みであることから範囲文字は挿入されない。
(変更例)
本発明は上記各実施形態に限らず、その主旨を逸脱しない限り種々に変更することができる。
第1の実施形態のブロック構成図である。 第1の実施形態のフローチャートである。 第2の実施形態のブロック構成図である。 第2の実施形態のフローチャートである。 第3の実施形態のブロック構成図である。 第3の実施形態のフローチャートである。 第4の実施形態のブロック構成図である。 第4の実施形態のフローチャートである。 第5の実施形態のブロック構成図である。 第5の実施形態のフローチャートである。 範囲文字の一覧を示す図である。 数字文節バッファ及び次候補バッファの格納例を示す図である。 範囲学習テーブルの格納例及びスコアを付与した次候補バッファの格納例を示す図である。 数字読みテーブルの格納例を示す図である。
符号の説明
101 入力装置
102 音声認識部
103 認識辞書
104 数字文節解析部
105 範囲文字挿入部
106 数字文節バッファ
107 候補展開部
108 次候補バッファ
109 範囲文字テーブル
110 出力装置
111 文書バッファ

Claims (11)

  1. 入力された音声信号を文字コードに変換する音声認識装置において、
    前記音声信号を認識辞書を用いて、文字コードよりなる文字から構成される単語列として音声認識する音声認識手段と、
    前記単語列に含まれる単語が、数を表す文字である数字の連続、または、桁を表す文字を含んだ数字の連続である場合に、前記各文字を結合し数字文節を作成する数字文節作成手段と、
    (1)前記数字文節内の連続する2つの数字の文字コードを数値化し、前記2文字の文末側文字に対応する数値が、前記2つの数字の文頭側文字に対応する数値に1を加算した値であり、かつ、(2)前記文末側文字が前記数字文節の末尾、または、前記数字文節内において前記文末側文字の次の文字が桁を表す文字のみである場合に、(3)前記2つの数字の間に範囲文字挿入用コードを挿入する範囲文字挿入手段と、
    前記数字文節の各文字の文字コード及び前記範囲文字挿入用コードを、範囲文字を含んだ数字の表記パターンに展開する数字展開手段と、
    を具備した
    ことを特徴とする音声認識装置。
  2. 前記範囲文字挿入用コードを範囲文字に変換するために、前記範囲文字の候補を含む前記表記パターンの候補を複数作成する候補展開手段をさらに具備した
    ことを特徴とする請求項1記載の音声認識装置。
  3. 前記数字文節の直前または直後の文節が数詞接辞であるかを否かを判定する数詞接辞判定手段をさらに具備し、
    前記候補展開手段は、前記数詞接辞の有無によって前記表記パターンの候補の出力優先順位を決定する
    ことを特徴とする請求項2記載の音声認識装置。
  4. 前記候補展開手段は、
    前記複数の表記パターンの候補の一覧から一の表記パターンをオペレータが選択するための選択手段と、
    前記選択された表記パターンの数字文節における数字の属性、その他の属性、前記範囲文字の使用の有無、前記範囲文字の種別を判定する候補選択手段と、
    前記判定情報を格納する範囲文字学習テーブルと、
    任意の表記パターンが候補となった場合に、前記任意の表記パターンの候補における数字の属性、その他の属性、前記範囲文字の使用の有無、前記範囲文字の種別と前記判定情報とを比較して一致した場合に、前記任意の表記パターンの候補の出力優先順位を他の候補より上げる順位変更手段と、
    を具備した
    ことを特徴とする請求項2記載の音声認識装置。
  5. 前記範囲文字学習テーブルは、前記判定情報を時系列的に格納し、
    前記順位変更手段は、
    前記一致した判定情報が、直近に学習されたものであれば、前記任意の表記パターンの候補の出力優先順位を一位にする
    ことを特徴とする請求項4記載の音声認識装置。
  6. 前記候補展開手段は、
    学習用テキストが入力されるテキスト入力手段と、
    前記学習用テキストを単語単位に分割する形態素解析手段と、
    前記分割された単語において数字で挟まれた範囲文字が存在する場合に、前記範囲文字を数字として連続する範囲の数字を結合して学習用数字文節を作成する文節構成手段と、
    前記学習用数字文節における数字の属性、その他の属性、前記範囲文字の有無、前記範囲文字の種別を判定する候補選択手段と、
    前記判定情報を格納する範囲文字学習テーブルと、
    任意の表記パターンが候補となった場合に、前記任意の表記パターンの候補における数字の属性、その他の属性、前記範囲文字の有無、前記範囲文字の種別と前記判定情報とを比較して一致した場合に、前記任意の表記パターンの候補の出力優先順位を他の候補より上げる順位変更手段と、
    を具備した
    ことを特徴とする請求項2記載の音声認識装置。
  7. 前記範囲文字挿入手段は、
    前記数字文節を構成する単語の読みが棒読みにしか使用されない読みであるか、桁読みにしか使用されない読みであるか、または、その両方で使用される読みかを判定する数字読み判定手段と、
    前記数字読み判定手段によって棒読み以外に使用される数字文節と判定された場合にのみ前記範囲文字挿入用コードを挿入する数字文節解析手段と、
    を具備した
    ことを特徴とする請求項1記載の音声認識装置。
  8. 数字の表記パターンが漢数字、アラビア数字、ローマ数字、または、桁の表記パターンである
    ことを特徴とする請求項1記載の音声認識装置。
  9. 前記範囲文字が「〜」、「・」、「、」、または、「−」である
    ことを特徴とする請求項1記載の音声認識装置。
  10. 入力された音声信号を文字コードに変換する音声認識方法において、
    前記音声信号を認識辞書を用いて、文字コードよりなる文字から構成される単語列として音声認識し、
    前記単語列に含まれる単語が、数を表す文字である数字の連続、または、桁を表す文字を含んだ数字の連続である場合に、前記各文字を結合し数字文節を作成し、
    (1)前記数字文節内の連続する2つの数字の文字コードを数値化し、前記2文字の文末側文字に対応する数値が、前記2つの数字の文頭側文字に対応する数値に1を加算した値であり、かつ、(2)前記文末側文字が前記数字文節の末尾、または、前記数字文節内において前記文末側文字の次の文字が桁を表す文字のみである場合に、(3)前記2つの数字の間に範囲文字挿入用コードを挿入し、
    前記数字文節の各文字の文字コード及び前記範囲文字挿入用コードを、範囲文字を含んだ数字の表記パターンに展開する
    ことを特徴とする音声認識方法。
  11. 入力された音声信号をコンピュータによって文字コードに変換する音声認識プログラムにおいて、
    前記音声信号を認識辞書を用いて、文字コードよりなる文字から構成される単語列として音声認識する音声認識機能と、
    前記単語列に含まれる単語が、数を表す文字である数字の連続、または、桁を表す文字を含んだ数字の連続である場合に、前記各文字を結合し数字文節を作成する数字文節作成機能と、
    (1)前記数字文節内の連続する2つの数字の文字コードを数値化し、前記2文字の文末側文字に対応する数値が、前記2つの数字の文頭側文字に対応する数値に1を加算した値であり、かつ、(2)前記文末側文字が前記数字文節の末尾、または、前記数字文節内において前記文末側文字の次の文字が桁を表す文字のみである場合に、(3)前記2つの数字の間に範囲文字挿入用コードを挿入する範囲文字挿入機能と、
    前記数字文節の各文字の文字コード及び前記範囲文字挿入用コードを、範囲文字を含んだ数字の表記パターンに展開する数字展開機能と、
    を実現した
    ことを特徴とする音声認識プログラム。
JP2006263462A 2006-09-27 2006-09-27 音声認識装置及びその方法 Pending JP2008083410A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006263462A JP2008083410A (ja) 2006-09-27 2006-09-27 音声認識装置及びその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006263462A JP2008083410A (ja) 2006-09-27 2006-09-27 音声認識装置及びその方法

Publications (1)

Publication Number Publication Date
JP2008083410A true JP2008083410A (ja) 2008-04-10

Family

ID=39354348

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006263462A Pending JP2008083410A (ja) 2006-09-27 2006-09-27 音声認識装置及びその方法

Country Status (1)

Country Link
JP (1) JP2008083410A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019213198A (ja) * 2018-06-04 2019-12-12 エヌシーソフト・コーポレイションNcsoft Corporation 字幕生成方法および字幕生成装置
JPWO2019220725A1 (ja) * 2018-05-18 2021-05-27 パナソニックIpマネジメント株式会社 音声認識装置、音声認識方法、及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2019220725A1 (ja) * 2018-05-18 2021-05-27 パナソニックIpマネジメント株式会社 音声認識装置、音声認識方法、及びプログラム
JP2019213198A (ja) * 2018-06-04 2019-12-12 エヌシーソフト・コーポレイションNcsoft Corporation 字幕生成方法および字幕生成装置
US11330342B2 (en) 2018-06-04 2022-05-10 Ncsoft Corporation Method and apparatus for generating caption

Similar Documents

Publication Publication Date Title
CN101067780B (zh) 智能设备的文字输入系统及方法
JP2013068952A (ja) 音声認識結果の統合
JP2009098490A (ja) 音声認識結果編集装置、音声認識装置およびコンピュータプログラム
KR20070072723A (ko) 발음 기호를 이용한 문자열 매칭 방법 및 시스템과 그방법을 기록한 컴퓨터 판독 가능한 기록매체
EP2595144B1 (en) Voice data retrieval system and program product therefor
JP2005078211A (ja) 中国語入力プログラム
KR100654183B1 (ko) 음성 인식을 이용한 문자 입력 시스템 및 그 방법
JP5396530B2 (ja) 音声認識装置および音声認識方法
JP2012003090A (ja) 音声認識装置および音声認識方法
JP2008083410A (ja) 音声認識装置及びその方法
JP4839291B2 (ja) 音声認識装置およびコンピュータプログラム
JP2002207728A (ja) 表音文字生成装置及びそれを実現するためのプログラムを記録した記録媒体
JP6619932B2 (ja) 形態素解析装置およびプログラム
JP7124358B2 (ja) 出力プログラム、情報処理装置及び出力制御方法
KR101777141B1 (ko) 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법
JP3758241B2 (ja) 音声情報検索装置
JP5098932B2 (ja) 歌詞データ表示装置、歌詞データ表示方法、歌詞データ表示プログラム
JP4229627B2 (ja) ディクテーション装置、方法及びプログラム
JP4523312B2 (ja) テキスト音声出力のための装置、方法、及びプログラム
JP4636842B2 (ja) 情報処理装置およびその文書表示方法
JPH10228471A (ja) 音声合成システム,音声用テキスト生成システム及び記録媒体
JP2007171275A (ja) 言語処理装置及び現後処理方法
JP2002189490A (ja) ピンイン音声入力の方法
JPH11250063A (ja) 検索装置及び検索方法
KR20090000858A (ko) 멀티모달 기반의 정보 검색 장치 및 방법