JP5474723B2 - 音声認識装置およびその制御プログラム - Google Patents

音声認識装置およびその制御プログラム Download PDF

Info

Publication number
JP5474723B2
JP5474723B2 JP2010221772A JP2010221772A JP5474723B2 JP 5474723 B2 JP5474723 B2 JP 5474723B2 JP 2010221772 A JP2010221772 A JP 2010221772A JP 2010221772 A JP2010221772 A JP 2010221772A JP 5474723 B2 JP5474723 B2 JP 5474723B2
Authority
JP
Japan
Prior art keywords
reading
speech recognition
word
input
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010221772A
Other languages
English (en)
Other versions
JP2012078449A (ja
Inventor
顕吾 藤田
恒夫 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2010221772A priority Critical patent/JP5474723B2/ja
Publication of JP2012078449A publication Critical patent/JP2012078449A/ja
Application granted granted Critical
Publication of JP5474723B2 publication Critical patent/JP5474723B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声認識装置に関し、特に、単語系列に対応する読み系列の一部を、単語系列の読みとして音声認識履歴辞書に登録し、ユーザが音声を入力する際に、登録された文書の先頭の一部の読みを発声するだけで、文書全体を入力する音声認識装置およびその制御プログラムに関する。
従来から、ユーザにより入力された音声を認識し、認識結果候補を出力する音声認識装置が提案されている。例えば、特許文献1では、カーナビゲーション装置における音声認識の技術が提案されている。このカーナビゲーション装置は、目的地等の音声入力が可能である。一般に、音声入力の対象となる単語が長い場合、ユーザが言い淀み、全てを発声しきれないことによる誤認識が多く発生する。これに対し、このカーナビゲーション装置では、長い単語にはその単語先頭から一部分の読みだけを対応させて登録しておくことによって、入力対象単語が長くユーザが言い淀んだ場合でも誤認識発生を抑制している。
また、特許文献2では、音声認識用大語彙辞書を、読みの先頭N音節、または先頭N母音が共通する単語毎にグループ化し、複数の辞書を作成する技術が開示されている。この技術では、まず、入力音声に対して音節認識を実行することで認識対象単語が含まれている辞書を選択する。次に、その選択された辞書内で通常の音声認識処理を実行する。これにより、大語彙辞書に対しそのまま認識処理を実行する場合と比較して、高速化、省メモリ化が図られている。
また、特許文献3では、複数の形態素から構成される単語を分割して得られるそれぞれの形態素について部分文字列を抽出し、それらを組み合わせた略語を作成する技術が開示されている。この技術では、そのような略語についても元の単語の読みとして辞書登録する。これにより、ユーザは、正式名称だけでなく略語によっても入力することが可能となる。
また、特許文献4では、全ユーザが共通で用いる語彙の含まれた共通辞書と個々のユーザのみが用いる語彙のみをもつ個人用辞書を用いるクライアント−サーバ型の音声認識装置が提案されている。この音声認識装置では、ユーザから指定された文書に含まれる単語を個人用辞書に登録することで、次回以降の音声認識精度の向上を図っている。ここで、指定された文書に含まれる単語とその読みの取得には、形態素解析が用いられている。
また、特許文献5では、上記と同様のクライアント−サーバ型の音声認識装置が提案されている。この音声認識装置において、クライアント端末上で音声認識結果に対してユーザの修正が施された単語を、個人用辞書に登録することで、次回以降の音声認識精度の向上を図っている。
また、特許文献6では、上記と同様のクライアント−サーバ型の音声認識装置が提案されている。この音声認識装置では、ユーザの送受信メールを自動で学習サーバに送信し、そのメール内容に基づき個人用辞書を、よりそのユーザに適応させる。送受信メールに未知語が含まれていた場合は、ユーザに読みを問い合せ、入力させる。
特開2001−083982号公報 特開2007−248847号公報 特開2008−046260号公報 特開2002−304189号公報 特開2005−227510号公報 特開2009−075582号公報
上記のように、特許文献1および特許文献3記載の技術では、任意の単語についてその先頭部分の読みや略語の読みを発声し入力することが可能であり、ユーザが入力したい単語の読みを全て発声する負担が軽減されるが、その対象となるのは予め辞書登録されている単語に限られている。すなわち、ユーザが過去に入力した文章や文節を対象として、入力をその先頭部分の読みだけで可能とすることはできない。
また、特許文献2記載の技術では、探索する辞書の予備選択のために入力の先頭N音節を認識するものの、ユーザが入力したい内容を全て発声する負担は軽減されない。
また、特許文献4〜6記載の技術では、ユーザが使用した単語を個人用辞書に追加することで、そのユーザが固有で用いる単語の認識を実現し、精度を向上させることができる。しかしながら、個人用辞書に登録された単語の認識にはその単語の読み全てを発声する必要があり、ユーザが入力したい内容を全て発声する負担は軽減されない。
また、特許文献4記載の技術では、個人用辞書に登録する単語の読みをユーザが入力した文書を形態素解析することにより取得するが、形態素解析処理は計算量が大きい。このため、例えば、携帯端末のような処理能力に乏しいプラットフォーム上では、動作させることが難しい場合がある。また、読みを取得する目的だけで形態素解析処理装置を備えることはコスト的に不利となってしまう。
また、特許文献6記載の技術では、専用辞書に登録するための読み情報をユーザに入力させているが、この操作はユーザにとって負担である。
本発明は、このような事情に鑑みてなされたものであり、単語系列に対応する読み系列の一部を、単語系列の読みとして音声認識履歴辞書に登録し、ユーザが音声を入力する際に、登録された文書の先頭の一部の読みを発声するだけで、文書全体を入力することができる音声認識装置およびその制御プログラムを提供することを目的とする。
(1)上記の目的を達成するために、本発明は、以下のような手段を講じた。すなわち、本発明の音声認識装置は、ユーザにより入力された音声を認識し、認識結果候補を出力する音声認識装置であって、ユーザが入力した単語系列とそれに対応する読みを記憶する音声認識履歴辞書と、入力された単語の読みを抽出する読み抽出部と、前記入力された単語と前記抽出されたその単語の読みとを対応させて、入力順に単語系列および読み系列として記憶する単語系列一時記憶部と、前記単語系列に対応する読み系列の一部を、前記単語系列の読みとして前記音声認識履歴辞書に登録する辞書登録部と、を備えることを特徴とする。
このように、単語系列に対応する読み系列の一部を、単語系列の読みとして音声認識履歴辞書に登録するので、ユーザが音声を入力する際に、登録された文書の先頭の一部の読みを発声するだけで、文書全体を入力することが可能となる。
(2)また、本発明の音声認識装置は、音声を入力する音声入力部と、一般的な音声認識結果を記憶する音声認識一般辞書と、ユーザにより入力された音声を認識し、その音声の読み系列に対応する少なくとも一つの単語を前記音声認識履歴辞書または前記音声認識一般辞書から抽出し、認識結果候補として出力する認識処理部と、ユーザの選択操作を契機として、前記認識結果候補となった単語の中からいずれか一つの単語を選択する候補選択部と、を更に備え、前記読み抽出部は、前記選択された単語が前記音声認識履歴辞書から抽出されたものである場合は、その単語の読みを抽出せず、前記選択された単語が前記音声認識一般辞書から抽出されたものである場合は、その単語の読みを前記音声認識一般辞書から抽出することを特徴とする。
この構成により、音声を入力することにより単語を登録することができ、ユーザが音声を入力する際に、登録された文書の先頭の一部の読みを発声するだけで、文書全体を入力することが可能となる。
(3)また、本発明の音声認識装置は、テキストを入力するテキスト入力部と、変換候補となる単語を記憶する予測変換辞書から、入力されたテキストに続く読み系列を有する少なくとも一つの単語を、予測変換候補として出力する予測変換部と、ユーザの選択操作を契機として、前記予測変換候補となった単語の中からいずれか一つの単語を選択する候補選択部と、を更に備え、前記読み抽出部は、前記選択された単語の読みを前記予測変換辞書から抽出することを特徴とする。
この構成により、テキストを入力することにより単語を登録することができ、ユーザが音声を入力する際に、登録された文書の先頭の一部の読みを発声するだけで、文書全体を入力することが可能となる。
(4)また、本発明の音声認識装置は、前記単語系列の使用頻度を示す情報を前記音声認識履歴辞書に登録し、前記単語系列一時記憶部に記憶された単語系列および読み系列が、既に前記音声認識履歴辞書に記憶されている場合は、前記使用頻度を更新する登録済単語更新部を更に備えることを特徴とする。
この構成により、使用頻度に応じて認識結果候補の出力順を決定することが可能となる。その結果、ユーザが認識結果候補の選択を容易に行なうことが可能となる。
(5)また、本発明の音声認識装置は、前記単語系列一時記憶部に記憶された単語系列が、一つ以上の文節から成る文節系列に達したとき、句点を含む文章に達したとき、または読点を含む節に達したときに、前記音声認識履歴辞書への登録対象とすることを特徴とする。
この構成により、ユーザが音声を入力する際に、登録された文書の先頭の一部の読みを発声するだけで、文書全体を入力することが可能となる。
(6)また、本発明の音声認識装置において、前記辞書登録部は、登録対象とする単語系列の先頭単語の読み、登録対象とする単語系列の読みの予め定められたN(Nは任意の自然数)音節、または登録対象とする単語系列の先頭のM(Mは任意の自然数)単語から成る文節の読みの組み合わせを登録することを特徴とする。
この構成により、ユーザが音声を入力する際に、登録された文書の先頭の一部の読みを発声するだけで、文書全体を入力することが可能となる。
(7)また、本発明の音声認識装置は、音声を入力する音声入力部と、一般的な音声認識結果を記憶する音声認識一般辞書と、ユーザにより入力された音声を認識し、その音声の読み系列に対応する少なくとも一つの単語系列を前記音声認識履歴辞書または前記音声認識一般辞書から抽出し、認識結果候補として出力する認識処理部と、前記認識結果候補となった単語系列をユーザに提示する候補提示部と、ユーザの選択操作を契機として、前記認識結果候補となった単語の中からいずれか一つの単語を選択する候補選択部と、を更に備えることを特徴とする。
この構成により、ユーザが音声を入力する際に、登録された文書の先頭の一部の読みを発声するだけで、文書全体を入力することが可能となる。
(8)また、本発明の音声認識装置において、前記認識処理部は、前記音声認識履歴辞書に記憶されている単語系列の使用頻度を示す情報に基づいて、前記認識結果候補の出力順を決定することを特徴とする。
このように、声認識履歴辞書に記憶されている単語系列の使用頻度を示す情報に基づいて、認識結果候補の出力順を決定するので、ユーザが認識結果候補の選択を容易に行なうことが可能となる。
(9)また、本発明の音声認識装置の制御プログラムは、ユーザにより入力された音声を認識し、認識結果候補を出力する音声認識装置の制御プログラムであって、ユーザ固有の音声認識結果を音声認識履歴辞書に記憶する処理と、入力された単語の読みを抽出する処理と、前記入力された単語と前記抽出されたその単語の読みとを対応させて、入力順に単語系列および読み系列として単語系列一時記憶部に記憶する処理と、前記単語系列に対応する読み系列の一部を、前記単語系列の読みとして前記音声認識履歴辞書に登録する処理と、の一連の処理を、コンピュータに読み取り可能および実行可能にコマンド化したことを特徴とする。
このように、単語系列に対応する読み系列の一部を、単語系列の読みとして音声認識履歴辞書に登録するので、ユーザが音声を入力する際に、登録された文書の先頭の一部の読みを発声するだけで、文書全体を入力することが可能となる。
本発明によれば、ユーザは過去に入力したことのある文書を、その先頭部分の読み数音節を発声するだけで、入力することが可能となる。その結果、従来の音声認識装置のように、入力したい内容を全て発声しなければならない負担を回避することができる。また、ユーザ本人が過去に入力した文書を、音声認識の対象とするため、実際にユーザが使用する可能性の高いものを辞書登録することができる。
本発明に係る音声認識装置の概略構成を示すブロック図である。 本発明に係る音声認識装置の動作を示すフローチャートである。 本発明に係る音声認識装置の動作を示すフローチャートである。
本発明に係る音声認識装置は、文章や文節といったユーザ作成文書が、音声認識により入力された場合は音声認識辞書から、キーボード他の手段によりテキスト入力された場合は予測変換辞書から、その文書に含まれる単語系列各々の読みを取得し、取得した読み系列の先頭からの一部のみを文書全体と対応付けて登録する。これにより、次回以降、ユーザが音声認識により入力する際には、登録された文書の先頭からの読みの一部を発声するだけで、文書全体を入力することを可能とするものである。
図1は、本発明に係る音声認識装置の概略構成を示すブロック図である。ただし、本発明はこの実施形態に限定されるものではなく、同様の機能を有するあらゆる形態において実施することが可能である。図1において、音声入力部1は、マイクによりユーザからの音声入力を受け付ける。認識処理部3は、予め定められた単位時間毎に、入力音声から抽出した音響特徴量を用いて、音声認識一般辞書5および音声認識履歴辞書7に登録された単語のうち、音響的、言語的に高い尤度(出現確率)が得られる単語を探索し、単一または複数の認識結果候補を取得する。
テキスト入力部9は、キーボードやテンキー、タッチパネルを利用したソフトウェアキーボード等により構成され、ユーザからのテキスト入力を受け付ける。予測変換部11は、予測変換辞書13から、入力されたテキストに続く読み系列をもつ単語のうち、スコアの高い単一または複数の予測変換候補を取得する。候補提示部15は、認識処理部3で得られた認識結果候補を、ディスプレイへの表示等により、ユーザに提示する。また、予測変換部11で得られた予測変換候補をユーザに提示する。
候補選択部17は、候補提示部15で提示された認識結果候補または予測変換候補のうちユーザが所望するものの選択を、キー入力等により受け付ける。本文表示部19は、その時点でのユーザが確定した入力文書を、ディスプレイへの表示等により表示する。結果出力部21は、ユーザからの入力と候補選択の受付を繰り返し、最終的に作成が完了した文章を出力する。例えば、本発明に係る音声認識装置が、メール作成アプリケーションに利用される場合、作成が完了した文章はメール本文としてディスプレイ等に表示される。
読み抽出部23は、候補選択部17で受け付けた単語の読みを抽出する。認識結果候補から選択された単語が音声認識一般辞書から得られたものである場合、その読みを音声認識一般辞書5の参照により取得する。一方、選択された単語が音声認識履歴辞書7からの登録単語である場合は、読みの抽出を行なわない。また、予測変換候補から選択された単語の読みを抽出する際は、予測変換辞書13を参照する。
単語系列一時記憶部25は、読み抽出の対象となった単語を、その対象となった時刻順に系列として記憶する。単語系列が、句点を含む一文である場合、例えば、「これから電車に乗るので、帰るのは21時になります。」、読点を含む節である場合、例えば、「これから電車に乗るので、」、文節である場合、例えば「電車に」、「乗るので」等の予め定められた単位に達した場合、その単語系列を音声認識履歴辞書7への登録対象とする。ここで、上記の登録単位は、単一とすることもできるし、複数を組み合わせ、その単位に達する毎に登録対象とすることもできる。例えば、まず読点を含む節「これから電車に乗るので、」を登録対象として処理した後、更に句点を含む一文「帰るのは21時になります。」および「これから電車に乗るので、帰るのは21時になります。」を登録対象とすることができる。
辞書登録部27は、単語系列一時記憶部25で登録対象となり、かつ音声認識履歴辞書7に未登録の単語系列を、ひとつの単語として登録する。ここで、登録する際の単語の読みは、登録対象単語系列を構成する先頭単語の読みのN(Nは任意の自然数)音節だけを用いる。ここで、Nは予め定められた値であり、もし先頭単語の読みがN音節に満たない場合は、先頭単語の読み全てを登録対象単語系列の読みとしても良いし、先頭単語の読み全てに後続単語の先頭からの読みをN音節に達するまで付加して登録対象単語系列の読みとしても良い。また、登録する読みの音節数を指定せず、全ての単語登録処理において、先頭単語の読みを登録対象単語系列の読みとしても良い。
登録済単語更新部29は、単語系列一時記憶部で登録対象となり、かつ音声認識履歴辞書に登録済みの単語系列に対し、登録対象となった回数に応じてその単語系列に与えられたボーナス値を更新する。ここで、ボーナス値は、音声認識部において取得した各認識結果候補がもつ尤度に加算する値である。候補提示部15において、認識結果候補は尤度の高い順にソートしてユーザに提示するため、単語系列一時記憶部25においてより多く登録対象となり、その結果より大きなボーナス値をもつこととなった単語系列を、優先的に提示する。
次に、以上のように構成された本発明に係る音声認識装置の動作について説明する。図2は、本発明に係る音声認識装置の音声認識履歴辞書に対する登録および更新の動作を示すフローチャートである。まず、音声入力部1またはテキスト入力部9から入力され、候補提示部15に選択候補となる単語が表示され、結果候補に対するユーザ選択受付状態となると(ステップS1)、ステップS2に遷移し、入力手段が音声でない場合は、予測変換辞書13から読みを取得し(ステップS3)、ステップS8へ遷移する。一方、ステップS2において、入力手段が音声である場合は、選択は、音声認識一般辞書5に登録されている単語から行なわれたかどうかを判断する(ステップS4)。
ステップS4において、選択は、音声認識一般辞書5に登録されている単語から行なわれない場合は、ステップS5に遷移し、音声認識履歴辞書7に登録済みの単語のボーナス値を更新し、終了となる。一方、ステップS4において、選択は、音声認識一般辞書5に登録されている単語から行なわれた場合は、音声認識一般辞書5からその単語の読みを取得し(ステップS6)、その単語と読みの組み合わせを記憶して、単語系列を形成する(ステップS7)。次に、単語系列が登録対象条件を満足するかどうかを判断し(ステップS8)、単語系列が登録対象条件を満足しない場合は、ステップS1へ遷移する。一方、ステップS8において、単語系列が登録対象条件を満足する場合は、対象となる単語系列が音声認識履歴辞書7に未登録であるかどうかを判断する(ステップS9)。
ステップS9において、対象となる単語系列が音声認識履歴辞書7に未登録でない場合は、ステップS5に遷移する一方、対象となる単語系列が音声認識履歴辞書7に未登録である場合は、登録単語系列に対する読みを決定し(ステップS10)、音声認識履歴辞書7に新規単語として登録し(ステップS11)、終了となる。
図3は、本発明に係る音声認識装置の音声認識動作を示すフローチャートである。まず、音声入力部1から音声の入力を受け付けると(ステップS21)、認識処理部3は、音響特徴量の抽出を行なう(ステップS22)。次に、認識処理部3は、抽出した音響特徴量に基づいて、音声認識一般辞書5および音声認識履歴辞書7の探索を行なう(ステップS23)。次に、音声認識履歴辞書7に該当する単語が存在した場合は、その登録単語の尤度にボーナス値を加算する(ステップS24)。
次に、入力音声が終了したかどうかを判断し(ステップS25)、入力音声が終了していない場合は、ステップS21に遷移する。一方、ステップS25において、入力音声が終了した場合は、認識処理部3は、尤度順に認識結果候補を並び替えて、候補提示部15に提示する(ステップS26)。次に、結果候補に対するユーザの選択を受け付けて(ステップS27)、ユーザの選択操作に応じて本文表示部19に確定文書を表示する(ステップS28)。
文書入力が終了したかどうかを判断し(ステップS29)、文書入力が終了していない場合は、ステップS21へ遷移する。一方、文書入力が終了した場合は、結果出力部21において、アプリケーション毎の形式で作成済み文書を出力して(ステップS30)、終了となる。
以上説明したように、本発明に係る音声認識装置によれば、ユーザは過去に入力したことのある文書を、その先頭部分の読み数音節を発声するだけで、入力することが可能となる。これにより、従来の音声認識装置における入力したい内容を全て発声しなければならない負担を回避することができる。また、ユーザ本人が過去に入力した文書をこうした音声認識の対象とするため、実際にユーザが使用する可能性の高いものだけを辞書登録することができる。辞書登録時には、音声認識用の辞書、テキスト入力用の予測変換辞書を用いて、入力された文書の先頭単語の読み情報を取得するため、他の読み情報取得のための装置を構成に組み込む必要がない。
1 音声入力部
3 認識処理部
5 音声認識一般辞書
7 音声認識履歴辞書
9 テキスト入力部
11 予測変換部
13 予測変換辞書
15 候補提示部
17 候補選択部
19 本文表示部
21 結果出力部
23 読み抽出部
25 単語系列一時記憶部
27 辞書登録部
29 登録済単語更新部

Claims (7)

  1. ユーザにより入力された音声を認識し、認識結果候補を出力する音声認識装置であって、
    単語系列に対応する読み系列のうち、前記読み系列の先頭を含む一部の読み系列のみを前記単語系列の読みとして記憶する音声認識履歴辞書と、
    一般的な音声認識結果を記憶する音声認識一般辞書と、
    音声を入力する音声入力部と、
    予め定められた単位時間毎に、入力音声から抽出した音響特徴量を用いて前記音声認識履歴辞書および前記音声認識一般辞書を検索し、少なくとも一つの認識結果候補を取得する認識処理部と、
    前記認識結果候補からユーザが選択した認識結果が、前記音声認識履歴辞書から取得されたものであるか、または前記音声認識一般辞書から取得されたものであるかを判断し、その判断の結果、前記音声認識一般辞書から取得されたものである場合は、前記ユーザが選択した認識結果を入力音声の単語系列の読みとして特定する読み抽出部と、
    前記特定された入力音声の単語系列の読みを、前記特定された入力音声の単語系列に対応する読み系列として入力順に記憶する単語系列一時記憶部と、
    前記特定された入力音声の単語系列に対応する読み系列のうち、前記読み系列の先頭を含む一部の読み系列のみを前記入力音声に対応する単語系列の読みとして前記音声認識履歴辞書に登録する辞書登録部と、
    テキストを入力するテキスト入力部と、
    変換候補となる単語系列を記憶する予測変換辞書から、前記入力されたテキストに続く読み系列を有する少なくとも一つの単語系列を、予測変換候補として出力する予測変換部と、を備え、
    前記読み抽出部は、前記予測変換辞書を参照し、前記予測変換候補からユーザが選択した変換結果の読みを、前記テキストの単語系列の読みとして特定し、
    前記単語系列一時記憶部は、前記特定されたテキストの単語系列の読みを、前記特定されたテキストの単語系列に対応する読み系列として入力順に記憶し、
    前記辞書登録部は、前記特定されたテキストの単語系列に対応する読み系列のうち、前記読み系列の先頭を含む一部の読み系列のみを前記テキストに対応する単語系列の読みとして前記音声認識履歴辞書に登録することを特徴とする音声認識装置。
  2. 前記認識処理部は、前記音声入力部から入力された音声を認識し、その音声に対応する読み系列を特定し、特定した前記読み系列を先頭に含む読み系列に対応する単語系列を、認識結果候補として、前記音声認識履歴辞書から抽出することを特徴とする請求項1記載の音声認識装置。
  3. 単語系列の使用頻度を示す情報を前記音声認識履歴辞書に登録し、前記単語系列一時記憶部に記憶された単語系列および読み系列が、既に前記音声認識履歴辞書に記憶されている場合は、前記使用頻度を更新する登録済単語更新部を更に備えることを特徴とする請求項1または請求項2記載の音声認識装置。
  4. 前記単語系列一時記憶部に記憶された単語系列が、一つ以上の文節から成る文節系列に達したとき、句点を含む文章に達したとき、または読点を含む節に達したときに、前記音声認識履歴辞書への登録対象とすることを特徴とする請求項1から請求項3のいずれかに記載の音声認識装置。
  5. 前記辞書登録部は、登録対象とする単語系列の先頭単語の読み、登録対象とする単語系列の読みの予め定められたN(Nは任意の自然数)音節、または登録対象とする単語系列の先頭のM(Mは任意の自然数)単語から成る文節の読みの組み合わせを登録することを特徴とする請求項1から請求項4のいずれかに記載の音声認識装置。
  6. ユーザにより入力された音声を認識し、認識結果候補を出力する音声認識装置のプログラムであって、
    単語系列に対応する読み系列のうち、前記読み系列の先頭を含む一部の読み系列のみを前記単語系列の読みとして音声認識履歴辞書に記憶する処理と、
    音声入力部から音声を入力する処理と、
    予め定められた単位時間毎に、入力音声から抽出した音響特徴量を用いて前記音声認識履歴辞書および一般的な音声認識結果を記憶する音声認識一般辞書を検索し、少なくとも一つの認識結果候補を取得する処理と、
    前記認識結果候補からユーザが選択した認識結果が、前記音声認識履歴辞書から取得されたものであるか、または前記音声認識一般辞書から取得されたものであるかを判断し、その判断の結果、前記音声認識一般辞書から取得されたものである場合は、前記ユーザが選択した認識結果を入力音声の単語系列の読みとして特定する処理と、
    前記特定された入力音声の単語系列の読みを、前記特定された入力音声の単語系列に対応する読み系列として入力順に記憶する処理と、
    前記特定された入力音声の単語系列に対応する読み系列のうち、前記読み系列の先頭を含む一部の読み系列のみを前記入力音声に対応する単語系列の読みとして前記音声認識履歴辞書に登録する処理と、
    テキストを入力する処理と、
    変換候補となる単語系列を記憶する予測変換辞書から、前記入力されたテキストに続く読み系列を有する少なくとも一つの単語系列を、予測変換候補として出力する処理と、
    前記予測変換辞書を参照し、前記予測変換候補からユーザが選択した変換結果の読みを、前記テキストの単語系列の読みとして特定する処理と、
    前記特定されたテキストの単語系列の読みを、前記特定されたテキストの単語系列に対応する読み系列として入力順に記憶する処理と、
    前記特定されたテキストの単語系列に対応する読み系列のうち、前記読み系列の先頭を含む一部の読み系列のみを前記テキストに対応する単語系列の読みとして前記音声認識履歴辞書に登録する処理と、の一連の処理を、コンピュータに実行させることを特徴とするプログラム
  7. 前記音声入力部から入力された音声を認識し、その音声に対応する読み系列を特定し、特定した前記読み系列を先頭に含む読み系列に対応する単語系列を、認識結果候補として、前記音声認識履歴辞書から抽出することを特徴とする請求項6記載のプログラム。
JP2010221772A 2010-09-30 2010-09-30 音声認識装置およびその制御プログラム Expired - Fee Related JP5474723B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010221772A JP5474723B2 (ja) 2010-09-30 2010-09-30 音声認識装置およびその制御プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010221772A JP5474723B2 (ja) 2010-09-30 2010-09-30 音声認識装置およびその制御プログラム

Publications (2)

Publication Number Publication Date
JP2012078449A JP2012078449A (ja) 2012-04-19
JP5474723B2 true JP5474723B2 (ja) 2014-04-16

Family

ID=46238798

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010221772A Expired - Fee Related JP5474723B2 (ja) 2010-09-30 2010-09-30 音声認識装置およびその制御プログラム

Country Status (1)

Country Link
JP (1) JP5474723B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11223878B2 (en) 2017-10-31 2022-01-11 Samsung Electronics Co., Ltd. Electronic device, speech recognition method, and recording medium

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102036606B1 (ko) * 2016-08-30 2019-10-28 자동차부품연구원 음성 인식률을 고려한 운전자 및 주행상황 맞춤형 hud 정보 제공 시스템 및 방법

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07282046A (ja) * 1994-04-06 1995-10-27 Oki Electric Ind Co Ltd かな漢字変換方法
JPH096772A (ja) * 1995-06-22 1997-01-10 Canon Inc 文字処理装置
JP2001195081A (ja) * 2000-01-13 2001-07-19 Toshiba Corp 日本語ディクテーションシステム
JP2002157241A (ja) * 2000-09-06 2002-05-31 Fujitsu Ltd 辞書作成装置
JP2003108189A (ja) * 2001-09-28 2003-04-11 Matsushita Electric Ind Co Ltd 音声認識装置及び音声認識方法
JP2010097239A (ja) * 2008-10-14 2010-04-30 Nec Corp 辞書作成装置、辞書作成方法、および辞書作成プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11223878B2 (en) 2017-10-31 2022-01-11 Samsung Electronics Co., Ltd. Electronic device, speech recognition method, and recording medium

Also Published As

Publication number Publication date
JP2012078449A (ja) 2012-04-19

Similar Documents

Publication Publication Date Title
TWI293455B (en) System and method for disambiguating phonetic input
JP5480760B2 (ja) 端末装置、音声認識方法および音声認識プログラム
TWI532035B (zh) 語言模型的建立方法、語音辨識方法及電子裝置
CN106663424B (zh) 意图理解装置以及方法
US7395203B2 (en) System and method for disambiguating phonetic input
KR101532447B1 (ko) 아시아어 문자를 생성하는 인식 아키텍처
US20130080146A1 (en) Speech recognition device
JP6245846B2 (ja) 音声認識における読み精度を改善するシステム、方法、およびプログラム
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
JP5231484B2 (ja) 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置
US20120253804A1 (en) Voice processor and voice processing method
JP5474723B2 (ja) 音声認識装置およびその制御プログラム
JP5611270B2 (ja) 単語分割装置、及び単語分割方法
JP5243325B2 (ja) 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム
JP7102710B2 (ja) 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法
JP2004326367A (ja) テキスト解析装置及びテキスト解析方法、ならびにテキスト音声合成装置
US10614065B2 (en) Controlling search execution time for voice input facility searching
KR101250897B1 (ko) 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법
JP2009271117A (ja) 音声検索装置および音声検索方法
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
JP5596869B2 (ja) 音声認識装置
KR101777141B1 (ko) 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법
JP2014164260A (ja) 情報処理装置およびその方法
JP2019159118A (ja) 出力プログラム、情報処理装置及び出力制御方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130306

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131017

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131029

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140205

R150 Certificate of patent or registration of utility model

Ref document number: 5474723

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees