JP6221301B2 - 音声処理装置、音声処理システムおよび音声処理方法 - Google Patents

音声処理装置、音声処理システムおよび音声処理方法 Download PDF

Info

Publication number
JP6221301B2
JP6221301B2 JP2013070682A JP2013070682A JP6221301B2 JP 6221301 B2 JP6221301 B2 JP 6221301B2 JP 2013070682 A JP2013070682 A JP 2013070682A JP 2013070682 A JP2013070682 A JP 2013070682A JP 6221301 B2 JP6221301 B2 JP 6221301B2
Authority
JP
Japan
Prior art keywords
word
word candidate
speech
voice
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013070682A
Other languages
English (en)
Other versions
JP2014194480A (ja
Inventor
太郎 外川
太郎 外川
千里 石川
千里 石川
猛 大谷
猛 大谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013070682A priority Critical patent/JP6221301B2/ja
Priority to US14/196,202 priority patent/US20140297281A1/en
Publication of JP2014194480A publication Critical patent/JP2014194480A/ja
Application granted granted Critical
Publication of JP6221301B2 publication Critical patent/JP6221301B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Description

本発明は、音声処理装置等に関する。
ユーザとの間で音声による対話を繰り返して、情報検索をはじめとする各種タスクを実行する音声対話システムが存在する。この音声対話システムは、ユーザから入力される音声を単語に変換する音声認識技術を用いる。現状の音声対話システムでは、音声認識結果が正しいか否かを独自に判定できない。このため、音声対話システムは、音声認識結果をディスプレイ等に表示して音声認識結果が正しいか否かをユーザに確認する。
ここで、音声対話システムが、音声認識結果の確認を頻繁にユーザに対して実行すると、ユーザに対する負担が増加するため、音声認識結果の確認を効率良く実行することが求められる。
例えば、音声認識の信頼度が低い単語全体をゆっくり再生して、音声認識結果の確認をユーザに対して実行する従来技術がある。例えば、ユーザが「岡山県の天気は?」と発音し、音声対話システムが「和歌山県の天気は?」と音声認識し、「和歌山県」の信頼度が低くなった場合に、音声認識結果のうち「和歌山県」をゆっくり再生して、音声認識結果が正しいか否かをユーザに確認する。
特開2003−208196号公報 特開2006−133478号公報
しかしながら、上述した従来技術では、音声認識結果の間違いが判りづらいという問題がある。
従来技術のように、音声認識の信頼度が低い単語全体をゆっくり再生すると、正しい認識結果との区別がつきにくく、ユーザが誤認識であるか否かを判断できない場合がある。例えば、上記の例に関して、音声対話システムが、信頼度の低い「和歌山県」をゆっくり再生したとしても、単語全体で聞いた場合には「和歌山県」と「岡山県」とが似ており、ユーザが違いを判別できない場合がある。
一つの側面では、上記に鑑みてなされたものであって、音声認識結果の間違いを判りやすくする音声処理装置、音声処理システムおよび音声処理方法を提供することを目的とする。
一つの案では、音声処理装置は、音声認識部と、選択部と、出力部とを有する。音声認識部は、入力された音声を単語に変換する音声認識を行い、音声に対応する複数の単語候補を抽出する。選択部は、音声認識部によって抽出された複数の単語候補を基にして、各単語候補間で相違する箇所を選択する。出力部は、複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、選択部によって選択された相違する箇所を強調して、前記単語候補の応答音声を出力する。
開示の態様では、音声認識結果の間違いを判りやすくすることができるという効果を奏する。
図1は、本実施例1に係る音声認識装置の構成を示す図である。 図2は、本実施例1に係る選択部の構成を示す図である。 図3は、本実施例1に係る有力候補抽出部の処理を説明するための図である。 図4は、本実施例1に係る評価部の処理を説明するための図(1)である。 図5は、本実施例1に係る評価部の処理を説明するための図(2)である。 図6は、本実施例1に係る評価部の処理を説明するための図(3)である。 図7は、本実施例1に係る強調制御部の構成を示す図である。 図8は、本実施例1に係るモーラ位置照合部の処理を説明するための図である。 図9は、本実施例1に係る音声認識装置の処理手順を示すフローチャートである。 図10は、本実施例1に係る選択部の処理手順を示すフローチャートである。 図11は、本実施例2に係る音声認識装置の構成を示す図である。 図12は、本実施例2に係る選択部の構成を示す図である。 図13は、本実施例2に係る有力候補抽出部の処理を説明するための図である。 図14は、本実施例3に係る音声認識装置の構成を示す図である。 図15は、本実施例3に係る選択部の構成を示す図である。 図16は、本実施例3に係る有力候補抽出部が抽出した単語候補と信頼度との一例を示す図である。 図17は、本実施例3に係る評価部の処理を説明するための図(1)である。 図18は、本実施例3に係る評価部の処理を説明するための図(2)である。 図19は、本実施例3に係る評価部の処理を説明するための図(3)である。 図20は、本実施例3に係る強調制御部の構成を示す図である。 図21は、本実施例3に係るモーラ位置照合部の処理を説明するための図である。 図22は、本実施例4に係る音声処理システムの一例を示す図である。 図23は、本実施例4に係るサーバの構成を示す図である。 図24は、音声処理プログラムを実行するコンピュータの一例を示す図である。
以下に、本願の開示する音声処理装置、音声処理システムおよび音声処理方法の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
本実施例1に係る音声処理装置について説明する。図1は、本実施例1に係る音声認識装置の構成を示す図である。図1に示すように、この音声処理装置100は、音声認識部110、選択部120、応答音声生成部130を有する。応答音声生成部130は、応答文生成部130a、強調制御部130b、テキスト合成部130cを有する。
音声認識部110は、マイク等から入力される音声を単語に変換する音声認識を行い、音声に対応する複数の単語候補を抽出する処理部である。また、音声認識部110は、各単語候補の信頼度をそれぞれ求める。音声認識部110は、単語候補と信頼度とを対応付けた情報を、選択部120および応答文生成部130aに出力する。以下の説明において、マイク等から入力される音声を適宜、入力音声と表記する。
音声認識部110の処理の一例について具体的に説明する。音声認識部110は、複数の単語と、該単語に対応する音声の標準パターンとを対応付けた標準テーブルを保持する。音声認識部110は、入力音声の周波数特性を基にして入力音声の特徴ベクトルを算出し、算出した特徴ベクトルと標準テーブルの各標準パターンとを比較して、特徴ベクトルと各標準パターンとの類似度をそれぞれ算出する。この特徴ベクトルと各標準パターンとの類似度を、上記信頼度とする。
音声認識部110は、特徴ベクトルとの信頼度が限りなく0に近い標準パターン以外の標準パターンを、単語候補として抽出する。例えば、音声認識部110は、特徴ベクトルとの信頼度が0.1以上となる標準パターンを、単語候補として抽出する。音声認識部110は、抽出した単語候補と信頼度とを対応付けた情報を、選択部120および応答音声生成部130に出力する。
音声認識部110が、信頼度を算出する処理は、上記のものに限られず、如何なる周知技術を用いても良い。例えば、音声認識部110は、特開平4−255900号公報の技術を用いて、単語候補の信頼度を算出しても良い。
選択部120は、複数の単語候補間で相違する箇所を選択する処理部である。図2は、本実施例1に係る選択部の構成を示す図である。図2に示すように、選択部120は、有力候補抽出部120aと、評価部120bを有する。
有力候補抽出部120aは、複数の単語候補の信頼度を基にして、信頼度が所定の閾値以上となる単語候補を抽出する。有力候補抽出部120aは、抽出した単語候補と該単語候補の信頼度との組みを、評価部120bに出力する。
図3は、本実施例1に係る有力候補抽出部の処理を説明するための図である。例えば、音声認識部110から取得した単語候補と信頼度との関係が、図3に示す関係となっており、所定の閾値を「0.6」とする。この場合には、有力候補抽出部120aは、候補1〜3の単語候補および信頼度の組みを抽出する。有力候補抽出部120aは、候補1〜3の単語候補および信頼度の組みの情報を、評価部120bに出力する。
評価部120bは、各単語候補をそれぞれ比較して、単語候補間で相違する箇所を選択する処理部である。以下の説明において、各単語候補のうち、信頼度が最大となるものを、第1単語候補と表記し、その他の単語候補を第2単語候補と表記する。例えば、図3に示す例では、信頼度「0.80」の単語候補「わかやま(和歌山)」が、第1単語候補となる。また、信頼度「0.75」の単語候補「おかやま(岡山)」および信頼度「0.65」の単語候補「とやま(富山)」が、それぞれ第2単語候補となる。
評価部120bは、第1単語候補と各第2単語候補との一致スコアをそれぞれ算出し、算出した各一致スコアを合計することで、最終的な第1単語候補の一致スコアを算出する。例えば、評価部120bは、第1単語候補「わかやま(和歌山)」と、第2単語候補「おかやま(岡山)」とを比較して、一致スコアを算出する。また、評価部120bは、第1単語候補「わかやま(和歌山)」と、第2単語候補「とやま(富山)」とを比較して、一致スコアを算出する。そして、評価部120bは、各一致スコアを合計することで、第1単語候補の一致スコアを算出する。
評価部120bは、例えば、DPマッチング法を用いて、一致スコアを算出する。図4、図5、図6は、本実施例1に係る評価部の処理を説明するための図である。図4について説明する。図4は、第1単語候補「わかやま(和歌山)」と、第2単語候補「おかやま(岡山)」とを比較する処理を示す。評価部120bは、第1単語候補および第2単語候補の文字をそれぞれ比較し、一致していれば、該当文字にスコア「0」を与え、一致しなければ、該当文字にスコア「−1」を与えるテーブル10aを生成する。
評価部120bは、テーブル10aを基にして、第1単語候補の各文字に対応するスコアのうち、大きい方のスコアを通る経路を優先して選択することで、各文字のスコアを特定する。図4に示す例では、経路11aが選択され、第1単語候補の各文字のスコアは、スコアテーブル20aに示すものとなる。すなわち、「わ」に対するスコアが「−1」となる。「か」、「や」、「ま」に対するスコアがそれぞれ「0」となる。
図5について説明する。図5は、第1単語候補「わかやま」と第2単語候補「とやま」とを比較する処理を示す。評価部120bは、第1単語候補および第2単語候補の文字をそれぞれ比較し、一致していれば、該当文字にスコア「0」を与え、一致しなければ、該当文字にスコア「−1」を与えるテーブル10bを生成する。
評価部120bは、テーブル10bを基にして、第1単語候補の各文字に対応するスコアのうち、大きい方のスコアを通る経路を優先して選択することで、各文字のスコアを特定する。図5に示す例では、経路11bが選択され、第1単語候補の各文字のスコアは、スコアテーブル20bに示すものとなる。すなわち、「わ」および「か」に対するスコアがそれぞれ「−1」となる。また、「や」、「ま」に対するスコアがそれぞれ「0」となる。
図6について説明する。評価部120bは、スコアテーブル20aとスコアテーブル20bとをそれぞれ第1単語候補の文字毎に合計することで、第1単語候補のスコアテーブル30を算出する。
評価部120bは、スコアテーブル30を基にして、第1単語候補の相違箇所を選択する。例えば、評価部120bは、スコアテーブル30の各スコアのうち、スコアが「0」未満となるスコアを選択し、選択したスコアに対応する文字を、相違箇所として選択する。図6に示す例では、評価部120bは、第1単語候補「わかやま」のうち「わか」を相違箇所として選択する。選択部120bは、相違箇所の情報を、強調制御部130bに出力する。
図1の説明に戻る。応答文生成部130aは、音声認識結果が正しいか否かをユーザに確認するための応答文を生成する処理部である。例えば、応答文生成部130aは、複数種類の文字列のテンプレートを保持しており、音声認識部110から得られる単語候補と、テンプレートとを組み合わせることで、応答文を生成する。応答文生成部130aは、生成した応答文の情報を、強調制御部130b、テキスト合成部130cに出力する。
例えば、応答文生成部130aは、複数の単語候補を取得した場合には、信頼度が最大となる単語候補を選択して、応答文を生成する。例えば、信頼度が最大となる単語候補が「わかやま」の場合には、応答文生成部130aは、テンプレート「ですね」と組み合わせて、応答文「わかやまですね」を生成する。
強調制御部130bは、応答文中の強調箇所を選択し、選択した強調箇所と、該強調箇所を強調するためのパラメータを、テキスト合成部130cに通知する処理部である。図7は、本実施例1に係る強調制御部の構成を示す図である。図7に示すように、この強調制御部130bは、モーラ位置照合部131および強調パラメータ設定部132を有する。
モーラ位置照合部131は、評価部120bから取得した相違箇所の情報を基にして、応答文中の強調箇所を選択する処理部である。図8は、本実施例1に係るモーラ位置照合部の処理を説明するための図である。図8に示すように、モーラ位置照合部131は、応答文40における開始モーラ位置40aと、単語候補50の相違箇所50aとを照合することで、応答文40中の強調箇所を算出する。図8に示す例では、相違箇所50aに対応する応答文40の文字は、1文字目の「わ」と2文字目の「か」となる。このため、強調箇所は、1〜2モーラとなる。
強調パラメータ設定部132は、予め設定された増幅量のパラメータを、テキスト合成部130cに出力する。例えば、強調パラメータ設定部132は、「強調箇所を10dB増幅する」旨の情報を、テキスト合成部130cに出力する。
テキスト合成部130cは、応答文の情報と、強調箇所の情報と、強調するためのパラメータとを基にして、応答文のうち強調箇所を強調した応答音声を生成し、生成した応答音声を出力する処理部である。例えば、テキスト合成部130cは、応答文を言語解析して、各単語に対応した韻律を特定し、特定した各韻律を組み合わせることで、応答音声を生成する。テキスト合成部130cは、応答音声のうち、強調箇所の文字に対応する音声の韻律を強調することで、強調箇所を強調した応答音声を生成する。
例えば、強調箇所が「1〜2モーラ」で、パラメータが「強調箇所を10dB増幅する」であれば、テキスト合成部130cは、応答文「わかやまですね」の「わか」の音声のパワーを「10dB」増幅することで、応答音声を生成する。テキスト合成部130cが生成した応答音声は、スピーカなどから出力される。例えば、応答文「わかやまですね」のうち、「わか」の箇所が、他の文言よりも強調されて出力される。
ところで、選択部120において、複数の単語候補が抽出されなかった場合には、応答音声生成部130は、応答文の情報をそのまま応答音声に変換し、出力する。
次に、本実施例1に係る音声処理装置100の処理手順について説明する。図9は、本実施例1に係る音声認識装置の処理手順を示すフローチャートである。図9に示す処理は、例えば、音声入力を受け付けたことを契機として実行される。図9に示すように、音声処理装置100は、音声入力を受け付け(ステップS101)、音声認識を実行して単語候補を抽出する(ステップS102)。
音声処理装置100は、単語候補の信頼度を算出し(ステップS103)、信頼度が所定値以上の単語候補を選択する(ステップS104)。音声処理装置100は、応答文を生成し(ステップS105)、相違箇所を選択する(ステップS106)。
音声処理装置100は、パラメータの設定を行い(ステップS107)、言語解析を実行する(ステップS108)。音声処理装置100は、韻律生成を行い(ステップS109)、強調箇所の韻律を変更する(ステップS110)。音声処理装置100は、波形処理を行い(ステップS111)、応答音声を出力する(ステップS112)。
次に、図1に示した選択部120の処理手順の一例について説明する。図10は、本実施例1に係る選択部の処理手順を示すフローチャートである。選択部120は、複数の単語候補から、所定値以上の信頼度の単語候補を抽出する(ステップS201)。
選択部120は、単語候補が2つ以上であるか否かを判定する(ステップS202)。選択部120は、単語候補が2つ以上でない場合には(ステップS202,No)、相違箇所無しと判定する(ステップS203)。
一方、選択部120は、単語候補が2つ以上である場合には(ステップS202,Yes)、第1単語候補に対する第2単語候補の一致度スコアを算出する(ステップS204)。選択部120は、各単語候補の合計のスコアを算出する(ステップS205)。選択部120は、合計のスコアが低い箇所を相違箇所として選択する(ステップS206)。
次に、本実施例1に係る音声処理装置100の効果について説明する。音声処理装置100は、音声認識部110によって認識された複数の単語候補を基にして、各単語候補間で相違する相違箇所を選択する。音声処理装置100は、単語候補のうち、相違箇所の音の大きさを増加させた応答音声を出力する。このように、本実施例1に係る音声処理装置100によれば、単語全体ではなく、相違箇所のみを強調して出力するので、音声認識結果の間違いが判りやすくすることができる。また、この技術を音声対話システムに適用することで、誤認識した箇所にユーザが気づいて訂正の発話を行いやすくなり、誤認識時の対話を効率化することもできる。
本実施例2に係る音声処理装置について説明する。図11は、本実施例2に係る音声認識装置の構成を示す図である。図11に示すように、この音声処理装置200は、音声認識部210、選択部220、応答音声生成部230を有する。応答音声生成部230は、応答文生成部230a、強調制御部230b、テキスト合成部230cを有する。
音声認識部210は、マイク等から入力される音声を単語に変換する音声認識を行い、音声に対応する複数の単語候補を抽出する処理部である。また、音声認識部210は、各単語候補の信頼度をそれぞれ求める。音声認識部210は、単語候補と信頼度とを対応付けた情報を、選択部220および応答音声生成部230に出力する。音声認識部210に関する具体的な説明は、実施例1で説明した音声認識部110と同様である。
選択部220は、複数の単語候補間で相違する箇所を選択する処理部である。図12は、本実施例2に係る選択部の構成を示す図である。図12に示すように、選択部220は、有力候補抽出部220aと、評価部220bとを有する。
有力候補抽出部220aは、複数の単語候補の信頼度を基にして、最も高い信頼度との差が所定の閾値以下となる単語候補を抽出する。有力候補抽出部220aは、抽出した単語候補と該単語候補の信頼度との組みを、評価部220bに出力する。
図13は、本実施例2に係る有力候補抽出部の処理を説明するための図である。図13に示す例では、候補と、単語候補と、信頼度と、信頼度の差とを対応付けて示している。信頼度の差は、最も高い信頼度と該当する信頼度との差を示す。所定の閾値を「0.2」とすると、信頼度の差が閾値以下となる単語候補は、候補1〜3となる。このため、有力候補抽出部220aは、候補1〜3の単語候補および信頼度の組みの情報を、評価部220bに出力する。
評価部220bは、各単語候補をそれぞれ比較して、単語候補間で相違する箇所を選択する処理部である。実施例1と同様にして、各単語候補のうち、信頼度が最大となるものを、第1単語候補と表記し、その他の単語候補を第2単語候補と表記する。評価部220bは、実施例1の評価部120bと同様の処理を実行して、相違箇所を選択し、選択した相違箇所の情報を、強調制御部230bに出力する。
応答文生成部230aは、音声認識結果が正しいか否かをユーザに確認するための応答文を生成する処理部である。応答文生成部230aが応答文を生成する処理は、実施例1の応答文生成部130aと同様である。応答文生成部230aは、生成した応答文の情報を、強調制御部230b、テキスト合成部230cに出力する。
強調制御部230bは、応答文中の強調箇所を選択し、選択した強調箇所と、該強調箇所を強調するためのパラメータを、テキスト合成部230cに通知する処理部である。強調制御部230bは、実施例1の強調制御部130bと同様にして、強調箇所を特定する。なお、強調制御部230bは、パラメータとして「強調箇所の持続長を2倍にする」旨の情報を、テキスト合成部230cに出力する。
テキスト合成部230cは、応答文の情報と、強調箇所の情報と、強調するためのパラメータとを基にして、応答文のうち強調箇所を強調した応答音声を生成し、生成した応答音声を出力する処理部である。例えば、テキスト合成部230cは、応答文を言語解析して、各単語に対応した韻律を特定し、特定した各韻律を組み合わせることで、応答音声を生成する。テキスト合成部230cは、応答音声のうち、強調箇所の文字に対応する音声の韻律を強調することで、強調箇所を強調した応答音声を生成する。
例えば、強調箇所が「1〜2モーラ」で、パラメータが「強調箇所の持続長を2倍にする」であれば、テキスト合成部230cは、応答文「わかやまですね」の「わか」の韻律部分の持続長を2倍にすることで、応答音声を生成する。テキスト合成部230cが生成した応答音声は、スピーカなどから出力される。例えば、応答文「わかやまですね」のうち、「わか」の箇所が、他の文言よりも長めに強調されて出力される。
次に、本実施例2に係る音声処理装置200の効果について説明する。音声処理装置200は、音声認識部210によって認識された複数の単語候補を基にして、各単語候補間で相違する相違箇所を選択する。音声処理装置200は、単語候補のうち、相違箇所の持続長を長めにした応答音声を出力する。このように、本実施例2に係る音声処理装置200によれば、単語全体ではなく、相違箇所のみを長めにして出力するので、音声認識結果の間違いが判りやすくすることができる。また、この技術を音声対話システムに適用することで、誤認識した箇所にユーザが気づいて訂正の発話を行いやすくなり、誤認識時の対話を効率化することもできる。
ところで、本実施例2に示した音声処理装置200は、パラメータとして「強調箇所のピッチを2倍する」旨の情報を用いて、相違箇所を強調しても良い。ピッチは例えば、基本周期に対応する。例えば、強調箇所が「1〜2モーラ」で、パラメータが「強調箇所のピッチを2倍にする」であれば、テキスト合成部230cは、応答文「わかやまですね」の「わか」の韻律部分のピッチ2倍にすることで、強調箇所の声を通常時よりも低くした応答音声を生成する。このように、本実施例2に係る音声処理装置200によれば、相違箇所のみの声の高さを低くして出力するので、音声認識結果の間違いが判りやすくすることができる。なお、音声処理装置200は、ピッチを1/2にして強調しても良い。
本実施例3に係る音声処理装置について説明する。図14は、本実施例3に係る音声認識装置の構成を示す図である。図14に示すように、この音声処理装置300は、音声認識部310、選択部320、応答音声生成部330を有する。応答音声生成部330は、応答文生成部330a、強調制御部330b、テキスト合成部330cを有する。
音声認識部310は、マイク等から入力される音声を単語に変換する音声認識を行い、音声に対応する複数の単語候補を抽出する処理部である。また、音声認識部310は、各単語候補の信頼度をそれぞれ求める。音声認識部310は、単語候補と信頼度とを対応付けた情報を、選択部320および応答文生成部330aに出力する。以下の説明において、マイク等から入力される音声を適宜、入力音声と表記する。
音声認識部310の処理の一例について具体的に説明する。音声認識部310は、複数の単語と、該単語に対応する音声の標準パターンとを対応付けた標準テーブルを保持する。音声認識部310は、入力音声の周波数特性を基にして入力音声の特徴ベクトルを算出し、算出した特徴ベクトルと標準テーブルの各標準パターンとを比較して、特徴ベクトルと各標準パターンとの類似度をそれぞれ算出する。この特徴ベクトルと各標準パターンとの類似度を、上記信頼度とする。
音声認識部310は、特徴ベクトルとの信頼度が限りなく0に近い標準パターン以外の標準パターンを、単語候補として抽出する。例えば、音声認識部310は、特徴ベクトルとの信頼度が0.1以上となる標準パターンを、単語候補として抽出する。音声認識部310は、抽出した単語候補と信頼度とを対応付けた情報を、選択部320および応答音声生成部330に出力する。
選択部320は、複数の単語候補間で相違する箇所を選択する処理部である。図15は、本実施例3に係る選択部の構成を示す図である。図15に示すように、選択部320は、有力候補抽出部320aと、評価部320bを有する。
有力候補抽出部320aは、複数の単語候補の信頼度を基にして、信頼度が所定の閾値以上となる単語候補を抽出する。有力候補抽出部320aは、抽出した単語候補と該単語候補の信頼度との組みを、評価部320bに出力する。各単語候補のうち、信頼度が最大となるものを、第1単語候補と表記し、その他の単語候補を第2単語候補と表記する。
図16は、本実施例3に係る有力候補抽出部が抽出した単語候補と信頼度との一例を示す図である。なお、図16に示すように、第1単語候補の「seven」の音節は「sev・en」となる。第2単語候補の「eleven」の音節は「e・lev・en」となる。第2単語候補の「seventeen」の音節は「sev・en・teen」となる。
評価部320bは、第1単語候補と各第2単語候補との一致スコアをそれぞれ算出し、算出した各一致スコアを合計することで、最終的な第1単語候補の一致スコアを算出する。例えば、評価部320bは、第1単語候補「seven」と、第2単語候補「eleven」とを比較して、一致スコアを算出する。また、評価部320bは、第1単語候補「seven」と、第2単語候補「seventeen」とを比較して、一致スコアを算出する。評価部320bは、各一致スコアを合計することで、第1単語候補の一致スコアを算出する。
評価部320bは、例えば、DPマッチング法を用いて、一致スコアを算出する。図17、図18、図19は、本実施例3に係る評価部の処理を説明するための図である。図17について説明する。図17は、第1単語候補「seven」と、第2単語候補「eleven」とを比較する処理を示す。評価部320bは、第1単語候補および第2単語候補の文字をそれぞれ比較し、一致していれば、該当文字にスコア「0」を与え、一致しなければ、該当文字にスコア「−1」を与えるテーブル10cを生成する。
評価部320bは、テーブル10cを基にして、第1単語候補の各文字に対応するスコアのうち、大きい方のスコアを通る経路を優先して選択することで、各文字のスコアを特定する。図17に示す例では、経路11cが選択され、第1単語候補の各文字のスコアは、スコアテーブル20cに示すものとなる。すなわち、「s」に対するスコアが「−1」となる。「e」、「v」、「e」、「n」に対するスコアがそれぞれ「0」となる。
図18について説明する。図18は、第1単語候補「seven」と、第2単語候補「seventeen」とを比較する処理を示す。評価部320bは、第1単語候補および第2単語候補の文字をそれぞれ比較し、一致していれば、該当文字にスコア「0」を与え、一致しなければ、該当文字にスコア「−1」を与えるテーブル10dを生成する。なお、第1単語候補の文字数が、第2単語候補の文字数未満の場合には、評価部320bは、第2単語候補のうち第1単語候補の文字数分だけ、比較対象とする。例えば、第1単語候補「seven」と、第2単語候補「seventeen」とを比較する場合には、第2単語候補の「seventeen」のうち、「seven」を比較対象とする。
評価部320bは、テーブル10dを基にして、第1単語候補の各文字に対応するスコアのうち、大きい方のスコアを通る経路を優先して選択することで、各文字のスコアを特定する。図18に示す例では、経路11dが選択され、第1単語候補の各文字のスコアは、スコアテーブル20dに示すものとなる。「s」、「e」、「v」、「e」、「n」に対するスコアがそれぞれ「0」となる。
図19について説明する。評価部320bは、スコアテーブル20cとスコアテーブル20dとをそれぞれ第1単語候補の文字毎に合計することで、第1単語候補のスコアテーブル35を算出する。
評価部320bは、スコアテーブル35を基にして、第1単語候補の相違箇所を選択する。例えば、評価部320bは、スコアテーブル35の各スコアのうち、スコアが「0」未満となるスコアを選択し、選択したスコアに対応する文字を、相違箇所として選択する。図19に示す例では、評価部320bは、第1単語候補「seven」のうち「s」を相違箇所として選択する。選択部320bは、相違箇所の情報を、強調制御部330bに出力する。
図14の説明に戻る。応答文生成部330aは、音声認識結果が正しいか否かをユーザに確認するための応答文を生成する処理部である。例えば、応答文生成部330aは、複数種類の文字列のテンプレートを保持しており、音声認識部310から得られる単語候補と、テンプレートとを組み合わせることで、応答文を生成する。応答文生成部330aは、生成した応答文の情報を、強調制御部330b、テキスト合成部330cに出力する。
例えば、応答文生成部330aは、複数の単語候補を取得した場合には、信頼度が最大となる単語候補を選択して、応答文を生成する。例えば、信頼度が最大となる単語候補が「seven」の場合には、応答文生成部330aは、テンプレート「o'clock?」と組み合わせて、応答文「Seven o'clock?」を生成する。
強調制御部330bは、応答文中の強調箇所を選択し、選択した強調箇所と、該強調箇所を強調するためのパラメータを、テキスト合成部330cに通知する処理部である。図20は、本実施例3に係る強調制御部の構成を示す図である。図20に示すように、この強調制御部330bは、モーラ位置照合部331および強調パラメータ設定部332を有する。
モーラ位置照合部331は、評価部320bから取得した相違箇所の情報を基にして、応答文中の強調箇所を選択する処理部である。図21は、本実施例3に係るモーラ位置照合部の処理を説明するための図である。図21に示すように、モーラ位置照合部331は、応答文45における開始モーラ位置45aと、単語候補55の相違箇所55aとを照合することで、応答文45中の強調箇所を算出する。図21に示す例では、相違箇所50aに対応する応答文45の文字は、1文字目の「S」となる。このため、強調箇所は、1モーラとなる。なお、モーラ位置照合部331は、音節単位で、強調箇所を特定しても良い。例えば、1文字目の「s」は、音節「Sev」に含まれるので、モーラ位置照合部331は、「Sev」を強調箇所としても良い。この場合には、強調箇所は1〜3モーラとなる。
強調パラメータ設定部332は、予め設定された増幅量のパラメータを、テキスト合成部330cに出力する。例えば、強調パラメータ設定部332は、「強調箇所を10dB増幅する」旨の情報を、テキスト合成部330cに出力する。
テキスト合成部330cは、応答文の情報と、強調箇所の情報と、強調するためのパラメータとを基にして、応答文のうち強調箇所を強調した応答音声を生成し、生成した応答音声を出力する処理部である。例えば、テキスト合成部330cは、応答文を言語解析して、各単語に対応した韻律を特定し、特定した各韻律を組み合わせることで、応答音声を生成する。テキスト合成部330cは、応答音声のうち、強調箇所の文字に対応する音声の韻律を強調することで、強調箇所を強調した応答音声を生成する。
例えば、強調箇所が「1〜3モーラ」で、パラメータが「強調箇所を10dB増幅する」であれば、テキスト合成部330cは、応答文「Seven o'clock?」の「Sev」の音声のパワーを「10dB」増幅することで、応答音声を生成する。テキスト合成部330cが生成した応答音声は、スピーカなどから出力される。例えば、応答文「Seven o'clock?」のうち、「Sev」の箇所が、他の文言よりも強調されて出力される。
強調するパラメータは上記のものに限られない。例えば、パラメータが「強調箇所の持続長を2倍にする」であれば、テキスト合成部330は、応答文「Seven o'clock?」の「Sev」の韻律部分の持続長を2倍にすることで、応答音声を生成する。例えば、パラメータが「強調箇所のピッチを2倍にする」であれば、テキスト合成部330は、応答文「Seven o'clock?」の「Sev」の韻律部分のピッチ2倍にすることで、強調箇所の声を通常時よりも低くした応答音声を生成する。
次に、本実施例3に係る音声処理装置300の効果について説明する。音声処理装置300は、音声認識部310によって認識された複数の単語候補を基にして、各単語候補間で相違する相違箇所を選択する。音声処理装置300は、単語候補のうち、相違箇所の音の大きさを増加させた応答音声を出力する。このように、本実施例3に係る音声処理装置300によれば、単語全体ではなく、相違箇所のみを強調して出力するので、音声認識結果の間違いが判りやすくすることができる。また、この技術を音声対話システムに適用することで、誤認識した箇所にユーザが気づいて訂正の発話を行いやすくなり、誤認識時の対話を効率化することもできる。
本実施例4に係る音声処理システムについて説明する。図22は、本実施例4に係る音声処理システムの一例を示す図である。図22に示すように、この音声処理システムは、端末装置400とサーバ500とを有する。端末装置400およびサーバ500はネットワーク80を介して相互に接続される。
端末装置400は、マイク等を用いてユーザから音声の入力を受け付け、受け付けた音声の情報をサーバ500に送信する。また、端末装置400は、サーバ500から応答音声の情報を受信し、受信した応答音声をスピーカ等から出力する。
サーバ500は、実施例1〜3に示した音声処理装置と同様の機能を有する。図23は、本実施例4に係るサーバの構成を示す図である。図23に示すように、このサーバ500は、通信制御部500aおよび音声処理部500bを有する。音声処理部500bは、音声認識部510、選択部520、応答音声生成部530を有する。応答音声生成部530は、応答文生成部530a、強調制御部530b、テキスト合成部530cを有する。
通信制御部500aは、端末装置400とデータ通信を実行する処理部である。通信制御部500aは、端末装置から受信した音声の情報を、音声認識部510に出力する。また、通信制御部500aは、テキスト合成部530cから出力される応答音声の情報を、端末装置400に送信する。
音声認識部510は、通信制御部500aから音声の情報を取得し、音声を単語に変換する音声認識を行い、音声に対応する複数の単語候補を抽出する処理部である。また、音声認識部510は、各単語候補の信頼度をそれぞれ求める。音声認識部510は、単語候補と信頼度とを対応付けた情報を、選択部520および応答文生成部530aに出力する。
選択部520は、複数の単語候補間で相違する箇所を選択する処理部である。選択部520に関する具体的な説明は、実施例1〜4に示した選択部120,220,230と同様である。
応答文生成部530aは、音声認識結果が正しいか否かをユーザに確認するための応答文を生成する処理部である。応答文生成部530aが応答文を生成する処理は、実施例1の応答文生成部130aと同様である。応答文生成部530aは、生成した応答文の情報を、強調制御部530b、テキスト合成部530cに出力する。
強調制御部530bは、応答文中の強調箇所を選択し、選択した強調箇所と、該強調箇所を強調するためのパラメータを、テキスト合成部530cに通知する処理部である。強調制御部530bは、実施例1の強調制御部130bと同様にして、強調箇所を特定する。なお、強調制御部530bは、パラメータとして「強調箇所の持続長を2倍にする」旨の情報を、テキスト合成部530cに出力する。なお、強調制御部530bは、パラメータとして「強調箇所を10dB増幅する」旨の情報を、テキスト合成部530cに出力する。なお、パラメータは、実施例2と同様に、「強調箇所の持続長を2倍にする」または「強調箇所のピッチを2倍にする」旨の情報であってもよい。
テキスト合成部530cは、応答文の情報と、強調箇所の情報と、強調するためのパラメータとを基にして、応答文のうち強調箇所を強調した応答音声を生成し、生成した応答音声を出力する処理部である。例えば、テキスト合成部530cは、応答文を言語解析して、各単語に対応した韻律を特定し、特定した各韻律を組み合わせることで、応答音声を生成する。テキスト合成部530cは、応答音声のうち、強調箇所の文字に対応する音声の韻律を強調することで、強調箇所を強調した応答音声を生成する。テキスト合成部530cは、生成した応答音声の情報を、通信制御部500aに出力する。
次に、本実施例4に係るサーバ500の効果について説明する。サーバ500は、音声認識部510によって認識された複数の単語候補を基にして、各単語候補間で相違する相違箇所を選択する。サーバ500は、単語候補のうち、相違箇所の音の大きさを増加させた応答音声を出力する。このように、本実施例4に係るサーバ500によれば、単語全体ではなく、相違箇所のみを強調して出力するので、音声認識結果の間違いが判りやすくすることができる。また、この技術を音声対話システムに適用することで、誤認識した箇所にユーザが気づいて訂正の発話を行いやすくなり、誤認識時の対話を効率化することもできる。
次に、上記の実施例に示した音声処理装置と同様の機能を実現する音声処理プログラムを実行するコンピュータの一例を説明する。図24は、音声処理プログラムを実行するコンピュータの一例を示す図である。
図24に示すように、コンピュータ600は、各種演算処理を実行するCPU601と、ユーザからのデータの入力を受け付ける入力装置602と、ディスプレイ603を有する。また、コンピュータ600は、記憶媒体からプログラム等を読取る読み取り装置604と、ネットワークを介して他のコンピュータとの間でデータの授受を行うインターフェース装置605とを有する。また、コンピュータ600は、各種情報を一時記憶するRAM606と、ハードディスク装置607を有する。そして、各装置601〜607は、バス608に接続される。
ハードディスク装置607は、例えば、音声認識プログラム607a、選択プログラム607b、出力プログラム607cを有する。CPU601は、各プログラム607a〜607cを読み出してRAM606に展開する。
音声認識プログラム607aは、音声認識プロセス606aとして機能する。選択プログラム607bは、選択プロセス606bとして機能する。出力プログラム607cは、出力プロセス606cとして機能する。
例えば、音声認識プロセス606aは、音声認識部110,210,310,510に対応する。選択プロセス606bは、選択部120,220,320,520に対応する。出力プロセス606cは、応答音声生成部130,230,330,530に対応する。
なお、各プログラム607a〜607cについては、必ずしも最初からハードディスク装置607に記憶させておかなくてもよい。例えば、コンピュータ600に挿入されるフレキシブルディスク(FD)、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ600がこれらから各プログラム607a〜607cを読み出して実行するようにしてもよい。
以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)入力された音声を単語に変換する音声認識を行い、前記音声に対応する複数の単語候補を抽出する音声認識部と、
前記音声認識部によって抽出された複数の単語候補を基にして、各単語候補間で相違する箇所を選択する選択部と、
前記複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、前記選択部によって選択された相違する箇所を強調して、前記単語候補の応答音声を出力する出力部と
を有することを特徴とする音声処理装置。
(付記2)前記音声認識部は、前記音声に対応する複数の単語候補毎に信頼度を算出し、前記選択部は、信頼度が閾値以上となる複数の単語候補を基にして、各単語候補のうち相違する箇所を選択することを特徴とする付記1に記載の音声処理装置。
(付記3)前記音声認識部は、前記音声に対する複数の単語候補毎に信頼度を算出し、前記選択部は、最大の信頼度となる単語候補と、最大の信頼度との差が閾値未満となる単語候補とを基にして、各単語候補間で相違する箇所を選択することを特徴とする付記1に記載の音声処理装置。
(付記4)前記出力部は、前記複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、前記選択部によって選択された相違する箇所の強度を、選択されていない箇所の強度よりも大きくして、前記単語候補の応答音声を出力することを特徴とする付記1、2または3に記載の音声処理装置。
(付記5)前記出力部は、前記複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、前記選択部によって選択された相違する箇所の発話速度を、選択されていない箇所の発話速度よりも遅くして、前記単語候補の応答音声を出力することを特徴とする付記1、2または3に記載の音声処理装置。
(付記6)前記出力部は、前記複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、前記選択部によって選択された相違する箇所の音声の基本周期を長く、または短くして前記単語候補の応答音声を出力することを特徴とする付記1、2または3に記載の音声処理装置。
(付記7)端末装置とサーバとを備えた音声処理システムであって、
前記端末装置は、入力された音声の情報を前記サーバに送信し、
前記サーバは、
前記端末装置から音声の情報を受信し、該音声を単語に変換する音声認識を行い、前記音声に対応する複数の単語候補を抽出する音声認識部と、
前記音声認識部によって抽出された複数の単語候補を基にして、各単語候補間で相違する箇所を選択する選択部と、
前記複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、前記選択部によって選択された相違する箇所を強調する前記単語候補の応答音声の情報を前記端末装置に送信する送信部と
を有することを特徴とする音声処理システム。
(付記8)前記音声認識部は、前記音声に対応する複数の単語候補毎に信頼度を算出し、前記選択部は、信頼度が閾値以上となる複数の単語候補を基にして、各単語候補のうち相違する箇所を選択することを特徴とする付記7に記載の音声処理システム。
(付記9)前記音声認識部は、前記音声に対する複数の単語候補毎に信頼度を算出し、前記選択部は、最大の信頼度となる単語候補と、最大の信頼度との差が閾値未満となる単語候補とを基にして、各単語候補間で相違する箇所を選択することを特徴とする付記7に記載の音声処理システム。
(付記10)前記送信部は、前記複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、前記選択部によって選択された相違する箇所の強度を、選択されていない箇所の強度よりも大きくした前記単語候補の応答音声の情報を前記端末装置に送信することを特徴とする付記7、8または9に記載の音声処理システム。
(付記11)前記送信部は、前記複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、前記選択部によって選択された相違する箇所の発話速度を、選択されていない箇所の発話速度よりも遅くした前記単語候補の応答音声の情報を前記端末装置に送信することを特徴とする付記7、8または9に記載の音声処理システム。
(付記12)前記送信部は、前記複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、前記選択部によって選択された相違する箇所の音声の基本周期を長く、または短くした前記単語候補の応答音声の情報を前記端末装置に送信することを特徴とする付記1、2または3に記載の音声処理装置。
(付記13)コンピュータが実行する音声処理方法であって、
入力された音声を単語に変換する音声認識を行い、前記音声に対応する複数の単語候補を抽出し、
抽出した複数の単語候補を基にして、各単語候補間で相違する箇所を選択し、
複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、相違する箇所を強調して、前記単語候補の応答音声を出力する
各処理を実行することを特徴とする音声処理方法。
(付記14)前記複数の単語候補を抽出する処理は、前記音声に対応する複数の単語候補毎に信頼度を算出し、前記相違する箇所を選択する処理は、信頼度が閾値以上となる複数の単語候補を基にして、各単語候補のうち相違する箇所を選択することを特徴とする付記13に記載の音声処理方法。
(付記15)前記複数の単語候補を抽出する処理は、前記音声に対する複数の単語候補毎に信頼度を算出し、前記相違する箇所を選択する処理は、最大の信頼度となる単語候補と、最大の信頼度との差が閾値未満となる単語候補とを基にして、各単語候補間で相違する箇所を選択することを特徴とする付記13に記載の音声処理方法。
(付記16)前記応答音声を出力する処理は、前記複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、相違する箇所の強度を、選択されていない箇所の強度よりも大きくして、前記単語候補の応答音声を出力することを特徴とする付記13、14または15に記載の音声処理方法。
(付記17)前記応答音声を出力する処理は、前記複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、相違する箇所の発話速度を、選択されていない箇所の発話速度よりも遅くして、前記単語候補の応答音声を出力することを特徴とする付記13、14または15に記載の音声処理方法。
(付記18)前記応答音声を出力する処理は、前記複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、相違する箇所の音声の基本周期を長く、または短くして、前記単語候補の応答音声を出力することを特徴とする付記13、14または15に記載の音声処理方法。
100,200,300 音声処理装置
110,210,310 音声認識部
120,220,320 選択部
130,230,330 応答音声生成部

Claims (8)

  1. 入力された音声を単語に変換する音声認識を行い、前記音声に対応する複数の単語候補を抽出する音声認識部と、
    前記音声認識部によって抽出された複数の単語候補を基にして、前記複数の単語候補から前記音声に対応する複数の単語候補を選択し、選択した複数の単語候補に含まれる第1単語候補と第2単語候補との比較により前記第1単語候補と前記第2単語候補との相違する第1相違箇所、および、前記第1単語候補と第3単語候補との比較により前記第1単語候補と前記第3単語候補との相違する第2相違箇所とを選択する選択部と、
    前記複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、前記選択部によって選択された前記第1相違箇所および前記第2相違箇所を強調して、前記単語候補の応答音声を出力する出力部と
    を有することを特徴とする音声処理装置。
  2. 前記音声認識部は、前記音声に対応する複数の単語候補毎に信頼度を算出し、前記選択部は、信頼度が閾値以上となる複数の単語候補を基にして、各単語候補のうち前記第1相違箇所および前記第2相違箇所を選択することを特徴とする請求項1に記載の音声処理装置。
  3. 前記音声認識部は、前記音声に対する複数の単語候補毎に信頼度を算出し、前記選択部は、最大の信頼度となる単語候補を前記第1単語候補として利用し、最大の信頼度との差が閾値未満となる複数の単語候補をそれぞれ前記第2単語候補および前記第3単語候補として利用することを特徴とする請求項1に記載の音声処理装置。
  4. 前記出力部は、前記複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、前記選択部によって選択された前記第1相違箇所および前記第2相違箇所の強度を、選択されていない箇所の強度よりも大きくして、前記単語候補の応答音声を出力することを特徴とする請求項1、2または3に記載の音声処理装置。
  5. 前記出力部は、前記複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、前記選択部によって選択された前記第1相違箇所および前記第2相違箇所の発話速度を、選択されていない箇所の発話速度よりも遅くして、前記単語候補の応答音声を出力することを特徴とする請求項1、2または3に記載の音声処理装置。
  6. 前記出力部は、前記複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、前記選択部によって選択された前記第1相違箇所および前記第2相違箇所の音声の基本周期を長く、または短くして、前記単語候補の応答音声を出力することを特徴とする請求項1、2または3に記載の音声処理装置。
  7. 端末装置とサーバとを備えた音声処理システムであって、
    前記端末装置は、入力された音声の情報を前記サーバに送信し、
    前記サーバは、
    前記端末装置から音声の情報を受信し、該音声を単語に変換する音声認識を行い、前記音声に対応する複数の単語候補を抽出する音声認識部と、
    前記音声認識部によって抽出された複数の単語候補を基にして、前記複数の単語候補から前記音声に対応する複数の単語候補を選択し、選択した複数の単語候補に含まれる第1単語候補と第2単語候補との比較により前記第1単語候補と前記第2単語候補との相違する第1相違箇所、および、前記第1単語候補と第3単語候補との比較により前記第1単語候補と前記第3単語候補との相違する第2相違箇所とを選択する選択部と、
    前記複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、前記選択部によって選択された前記第1相違箇所および前記第2相違箇所を強調する前記単語候補の応答音声の情報を前記端末装置に送信する送信部と
    を有することを特徴とする音声処理システム。
  8. コンピュータが実行する音声処理方法であって、
    入力された音声を単語に変換する音声認識を行い、前記音声に対応する複数の単語候補を抽出し、
    抽出した複数の単語候補を基にして、前記複数の単語候補から前記音声に対応する複数の単語候補を選択し、
    選択した複数の単語候補に含まれる第1単語候補と第2単語候補との比較により前記第1単語候補と前記第2単語候補との相違する第1相違箇所、および、前記第1単語候補と第3単語候補との比較により前記第1単語候補と前記第3単語候補との相違する第2相違箇所とを選択し、
    複数の単語候補から前記音声に対応する単語候補を選択し、選択した単語候補のうち、前記第1相違箇所および前記第2相違箇所を強調して、前記単語候補の応答音声を出力する
    各処理を実行することを特徴とする音声処理方法。
JP2013070682A 2013-03-28 2013-03-28 音声処理装置、音声処理システムおよび音声処理方法 Expired - Fee Related JP6221301B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013070682A JP6221301B2 (ja) 2013-03-28 2013-03-28 音声処理装置、音声処理システムおよび音声処理方法
US14/196,202 US20140297281A1 (en) 2013-03-28 2014-03-04 Speech processing method, device and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013070682A JP6221301B2 (ja) 2013-03-28 2013-03-28 音声処理装置、音声処理システムおよび音声処理方法

Publications (2)

Publication Number Publication Date
JP2014194480A JP2014194480A (ja) 2014-10-09
JP6221301B2 true JP6221301B2 (ja) 2017-11-01

Family

ID=51621695

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013070682A Expired - Fee Related JP6221301B2 (ja) 2013-03-28 2013-03-28 音声処理装置、音声処理システムおよび音声処理方法

Country Status (2)

Country Link
US (1) US20140297281A1 (ja)
JP (1) JP6221301B2 (ja)

Families Citing this family (162)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
JP6100101B2 (ja) * 2013-06-04 2017-03-22 アルパイン株式会社 音声認識を利用した候補選択装置および候補選択方法
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
CN106471570B (zh) * 2014-05-30 2019-10-01 苹果公司 多命令单一话语输入方法
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
EP3482393A4 (en) 2016-07-08 2019-12-18 Asapp, Inc. AUTOMATIC RESPONSE TO A REQUEST FROM A USER
US10083451B2 (en) 2016-07-08 2018-09-25 Asapp, Inc. Using semantic processing for customer support
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10650311B2 (en) 2016-12-19 2020-05-12 Asaap, Inc. Suggesting resources using context hashing
US10109275B2 (en) 2016-12-19 2018-10-23 Asapp, Inc. Word hash language model
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10762423B2 (en) 2017-06-27 2020-09-01 Asapp, Inc. Using a neural network to optimize processing of user requests
JP6787269B2 (ja) * 2017-07-21 2020-11-18 トヨタ自動車株式会社 音声認識システム及び音声認識方法
JP2019046267A (ja) * 2017-09-04 2019-03-22 トヨタ自動車株式会社 情報提供方法、情報提供システム、および情報提供装置
JP6728116B2 (ja) * 2017-09-21 2020-07-22 株式会社東芝 音声認識装置、音声認識方法およびプログラム
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
JP6828667B2 (ja) * 2017-11-28 2021-02-10 トヨタ自動車株式会社 音声対話装置、音声対話方法及びプログラム
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10497004B2 (en) 2017-12-08 2019-12-03 Asapp, Inc. Automating communications using an intent classifier
US10489792B2 (en) 2018-01-05 2019-11-26 Asapp, Inc. Maintaining quality of customer support messages
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10210244B1 (en) 2018-02-12 2019-02-19 Asapp, Inc. Updating natural language interfaces by processing usage data
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10169315B1 (en) 2018-04-27 2019-01-01 Asapp, Inc. Removing personal information from text using a neural network
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
JP7151181B2 (ja) * 2018-05-31 2022-10-12 トヨタ自動車株式会社 音声対話システム、その処理方法及びプログラム
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance
JP7143665B2 (ja) * 2018-07-27 2022-09-29 富士通株式会社 音声認識装置、音声認識プログラムおよび音声認識方法
US11216510B2 (en) 2018-08-03 2022-01-04 Asapp, Inc. Processing an incomplete message with a neural network to generate suggested messages
CN109246214B (zh) * 2018-09-10 2022-03-04 北京奇艺世纪科技有限公司 一种提示音获取方法、装置、终端及服务器
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US10747957B2 (en) 2018-11-13 2020-08-18 Asapp, Inc. Processing communications using a prototype classifier
US11551004B2 (en) 2018-11-13 2023-01-10 Asapp, Inc. Intent discovery with a prototype classifier
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
CN110675871B (zh) * 2019-09-25 2021-03-05 北京蓦然认知科技有限公司 一种语音识别方法及装置
US11425064B2 (en) 2019-10-25 2022-08-23 Asapp, Inc. Customized message suggestion with user embedding vectors
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10207486A (ja) * 1997-01-20 1998-08-07 Nippon Telegr & Teleph Corp <Ntt> 対話型音声認識方法およびこの方法を実施する装置
JP3587048B2 (ja) * 1998-03-02 2004-11-10 株式会社日立製作所 韻律制御方法及び音声合成装置
JP3990075B2 (ja) * 1999-06-30 2007-10-10 株式会社東芝 音声認識支援方法及び音声認識システム
US6859778B1 (en) * 2000-03-16 2005-02-22 International Business Machines Corporation Method and apparatus for translating natural-language speech using multiple output phrases
JP2002333895A (ja) * 2001-05-10 2002-11-22 Sony Corp 情報処理装置および情報処理方法、記録媒体、並びにプログラム
US8494859B2 (en) * 2002-10-15 2013-07-23 Gh, Llc Universal processing system and methods for production of outputs accessible by people with disabilities
JP4705023B2 (ja) * 2004-06-10 2011-06-22 パナソニック株式会社 音声認識装置、音声認識方法、及びプログラム
JP4684583B2 (ja) * 2004-07-08 2011-05-18 三菱電機株式会社 対話装置
CN101156196A (zh) * 2005-03-28 2008-04-02 莱塞克技术公司 混合语音合成器、方法和使用
US20080154600A1 (en) * 2006-12-21 2008-06-26 Nokia Corporation System, Method, Apparatus and Computer Program Product for Providing Dynamic Vocabulary Prediction for Speech Recognition
US8630857B2 (en) * 2007-02-20 2014-01-14 Nec Corporation Speech synthesizing apparatus, method, and program
JP4213755B2 (ja) * 2007-03-28 2009-01-21 株式会社東芝 音声翻訳装置、方法およびプログラム
JP2009128675A (ja) * 2007-11-26 2009-06-11 Toshiba Corp 音声を認識する装置、方法およびプログラム
JP5398295B2 (ja) * 2009-02-16 2014-01-29 株式会社東芝 音声処理装置、音声処理方法及び音声処理プログラム
US8447610B2 (en) * 2010-02-12 2013-05-21 Nuance Communications, Inc. Method and apparatus for generating synthetic speech with contrastive stress
US8782556B2 (en) * 2010-02-12 2014-07-15 Microsoft Corporation User-centric soft keyboard predictive technologies

Also Published As

Publication number Publication date
JP2014194480A (ja) 2014-10-09
US20140297281A1 (en) 2014-10-02

Similar Documents

Publication Publication Date Title
JP6221301B2 (ja) 音声処理装置、音声処理システムおよび音声処理方法
JP4657736B2 (ja) ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法
JP4536323B2 (ja) 音声−音声生成システムおよび方法
US20210335362A1 (en) Determining a system utterance with connective and content portions from a user utterance
US10134374B2 (en) Signal processing method and signal processing apparatus
JP2004101901A (ja) 音声対話装置及び音声対話プログラム
JP6696803B2 (ja) 音声処理装置および音声処理方法
JP2010078877A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP5029884B2 (ja) 韻律生成装置、韻律生成方法、および、韻律生成プログラム
JP7326931B2 (ja) プログラム、情報処理装置、及び情報処理方法
JP6468258B2 (ja) 音声対話装置および音声対話方法
KR20160061071A (ko) 발음 변이를 적용시킨 음성 인식 방법
JP5342629B2 (ja) 男女声識別方法、男女声識別装置及びプログラム
JP5293478B2 (ja) 音声認識用の閾値管理プログラム、音声認識用の閾値管理方法、音声認識装置
JP5818753B2 (ja) 音声対話システム及び音声対話方法
JP2006243213A (ja) 言語モデル変換装置、音響モデル変換装置、及びコンピュータプログラム
JP5949634B2 (ja) 音声合成システム、及び音声合成方法
JP3720595B2 (ja) 音声認識装置及びその方法、コンピュータ可読メモリ
KR20210059581A (ko) 말하기의 자동 유창성 평가 방법 및 그 장치
JPWO2019030810A1 (ja) 音声認識装置および音声認識方法
KR102300303B1 (ko) 발음 변이를 적용시킨 음성 인식 방법
JP7055529B1 (ja) 意味判定プログラム、及び意味判定システム
JP2015215503A (ja) 音声認識方法、音声認識装置および音声認識プログラム
WO2022215162A1 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2009053522A (ja) 音声出力装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170124

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170323

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170918

R150 Certificate of patent or registration of utility model

Ref document number: 6221301

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees