JP2010044239A - 音声認識装置およびプログラム - Google Patents

音声認識装置およびプログラム Download PDF

Info

Publication number
JP2010044239A
JP2010044239A JP2008208540A JP2008208540A JP2010044239A JP 2010044239 A JP2010044239 A JP 2010044239A JP 2008208540 A JP2008208540 A JP 2008208540A JP 2008208540 A JP2008208540 A JP 2008208540A JP 2010044239 A JP2010044239 A JP 2010044239A
Authority
JP
Japan
Prior art keywords
voice
recognition
speech
input
recurrent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008208540A
Other languages
English (en)
Inventor
Koji Sase
孝司 佐瀬
Toshiki Endo
俊樹 遠藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2008208540A priority Critical patent/JP2010044239A/ja
Publication of JP2010044239A publication Critical patent/JP2010044239A/ja
Withdrawn legal-status Critical Current

Links

Abstract

【課題】時刻情報を用いることによって、過去のデータとのマッチング処理の回数を減らし、処理時間を短縮させる。
【解決手段】音声信号の類似度を測定する類似度測定手段31と、類似度の高い過去の音声信号が入力された時刻から所定期間内に前記音声認識要求と共に入力された音声信号が入力されたかどうかを判定する再発声種別判定手段32と、を備え、再発声種別判定手段32は、類似度の高い過去の音声信号が入力された時刻から所定期間内に、音声認識要求と共に入力された音声信号が入力された場合は、語彙外の再発声または誤認識による再発声であると判定する一方、類似度の高い過去の音声信号が入力された時刻から所定期間が経過した後で、音声認識要求と共に入力された音声信号が入力された場合は、定期的な発声であると判定する。
【選択図】図1

Description

本発明は、音声認識技術に関し、特に、時刻情報を用いて再発声の種別を判定する技術に関する。
従来から、再発声入力が行なわれたときに、過去の認識結果を有効に使って認識精度を改善させようとする音声認識装置が知られている(特許文献1)。この音声認識装置では、今回の入力音声パターンと過去の入力音声パターンとの間で、入力パターン間マッチングを行なって、今回の発声が言い直し発声か否かを判定する。また、今回の入力音声パターンと標準パターンとの認識マッチングを行なって認識候補を選定する。上記判定結果が、言い直し発声でない場合は、今回選定された認識候補が、そのまま認識結果として出力される。一方、上記判定の結果が、言い直し発声である場合には、認識候補登録部に記憶してある過去の認識候補と、今回の処理で得た認識候補との双方を用いて、2回のマッチング結果に基づいて、調整された認識候補が定められる。
特開平11−149294号公報
しかしながら、上記の従来技術では、音声認識要求毎に過去の全データとのマッチング処理を行なうため、処理時間が多くかかってしまう。
本発明は、このような事情に鑑みてなされたものであり、時刻情報を用いることによって、過去のデータとのマッチング処理の回数を減らし、処理時間を短縮させることができる音声認識装置およびプログラムを提供することを目的とする。
(1)上記の目的を達成するために、本発明は、以下のような手段を講じた。すなわち、本発明の音声認識装置は、時刻情報を用いて再発声の種別を判定する音声認識装置であって、音声認識要求と共に入力された音声信号と、過去に入力された音声信号との類似度を測定する類似度測定手段と、前記測定の結果、前記音声認識要求と共に入力された音声信号と類似度の高い音声信号が過去に入力されていた場合、前記類似度の高い過去の音声信号が入力された時刻から所定期間内に前記音声認識要求と共に入力された音声信号が入力されたかどうかを判定する再発声種別判定手段と、音響モデルおよび言語モデルを用いて、入力された音声信号の音声認識処理を行なう音声認識処理手段と、を備え、前記再発声種別判定手段は、前記類似度の高い過去の音声信号が入力された時刻から所定期間内に、前記音声認識要求と共に入力された音声信号が入力された場合は、語彙外の再発声または誤認識による再発声であると判定する一方、前記類似度の高い過去の音声信号が入力された時刻から所定期間が経過した後で、前記音声認識要求と共に入力された音声信号が入力された場合は、定期的な発声であると判定することを特徴としている。
このように、類似度の高い過去の音声信号が入力された時刻から所定期間内に、音声認識要求と共に入力された音声信号が入力された場合は、語彙外の再発声または誤認識による再発声であると判定する一方、類似度の高い過去の音声信号が入力された時刻から所定期間が経過した後で、音声認識要求と共に入力された音声信号が入力された場合は、定期的な発声であると判定するので、再発声による認識精度を向上させることが可能となる。
(2)また、本発明の音声認識装置において、前記音声認識処理手段は、前記再発声種別判定手段の判定結果に応じて、前記音声認識要求と共に入力された音声信号に該当する認識結果の認識スコアを更新することを特徴としている。
このように、再発声種別判定手段の判定結果に応じて、音声認識要求と共に入力された音声信号に該当する認識結果の認識スコアを更新するので、再発声による認識精度を向上させることが可能となる。
(3)また、本発明の音声認識装置において、前記音声認識処理手段は、前記再発声種別判定手段が語彙外の再発声または誤認識による再発声であると判定した場合は、前記音声認識要求と共に入力された音声信号に該当する認識結果の認識スコアを減少させる一方、前記再発声種別判定手段が定期的な発声であると判定した場合は、前記音声認識要求と共に入力された音声信号に該当する認識結果の認識スコアを増加させることを特徴としている。
このように、再発声種別判定手段が語彙外の再発声または誤認識による再発声であると判定した場合は、音声認識要求と共に入力された音声信号に該当する認識結果の認識スコアを減少させるので、音声認識処理において、音声認識要求と共に入力された音声信号が認識されにくくなる。一方、再発声種別判定手段が定期的な発声であると判定した場合は、音声認識要求と共に入力された音声信号に該当する認識結果の認識スコアを増加させるので、音声認識要求と共に入力された音声信号が認識されやすくなる。その結果、再発声による認識精度を向上させることが可能となる。
(4)また、本発明の音声認識装置において、前記音声認識処理手段は、前記再発声種別判定手段の判定結果に応じて、前記音声認識要求と共に入力された音声信号に該当する認識結果の言語確率を変更することを特徴としている。
このように、再発声種別判定手段の判定結果に応じて、前記音声認識要求と共に入力された音声信号に該当する認識結果の言語確率を変更するので、再発声による認識精度を向上させることが可能となる。
(5)また、本発明の音声認識装置において、前記音声認識処理手段は、前記再発声種別判定手段が語彙外の再発声または誤認識による再発声であると判定した場合は、前記音声認識要求と共に入力された音声信号に該当する認識結果の言語確率を減少させる一方、前記再発声種別判定手段が定期的な発声であると判定した場合は、前記音声認識要求と共に入力された音声信号に該当する認識結果の言語確率を増加させることを特徴としている。
このように、再発声種別判定手段が語彙外の再発声または誤認識による再発声であると判定した場合は、音声認識要求と共に入力された音声信号に該当する認識結果の言語確率を減少させるので、音声認識要求と共に入力された音声信号が該当認識結果として認識されにくくなる。一方、再発声種別判定手段が定期的な発声であると判定した場合は、音声認識要求と共に入力された音声信号に該当する認識結果の言語確率を増加させるので、音声認識要求と共に入力された音声信号が該当認識結果として認識されやすくなる。その結果、再発声による認識精度を向上させることが可能となる。
(6)また、本発明のプログラムは、時刻情報を用いて再発声の種別を判定するプログラムであって、音声認識要求と共に入力された音声信号と、過去に入力された音声信号との類似度を測定する処理と、前記測定の結果、前記音声認識要求と共に入力された音声信号と類似度の高い音声信号が過去に入力されていた場合、前記類似度の高い過去の音声信号が入力された時刻から所定期間内に前記音声認識要求と共に入力された音声信号が入力されたかどうかを判定する処理と、前記類似度の高い過去の音声信号が入力された時刻から所定期間内に、前記音声認識要求と共に入力された音声信号が入力された場合は、語彙外の再発声または誤認識による再発声であると判定する一方、前記類似度の高い過去の音声信号が入力された時刻から所定期間が経過した後で、前記音声認識要求と共に入力された音声信号が入力された場合は、定期的な発声であると判定する処理と、音響モデルおよび言語モデルを用いて、入力された音声信号の音声認識処理を行なう処理と、を含む一連の処理を、コンピュータで読み取りおよび実行可能にコマンド化したことを特徴としている。
このように、類似度の高い過去の音声信号が入力された時刻から所定期間内に、音声認識要求と共に入力された音声信号が入力された場合は、語彙外の再発声または誤認識による再発声であると判定する一方、類似度の高い過去の音声信号が入力された時刻から所定期間が経過した後で、音声認識要求と共に入力された音声信号が入力された場合は、定期的な発声であると判定するので、再発声による認識精度を向上させることが可能となる。
本発明によれば、類似度の高い過去の音声信号が入力された時刻から所定期間内に、音声認識要求と共に入力された音声信号が入力された場合は、語彙外の再発声または誤認識による再発声であると判定する一方、類似度の高い過去の音声信号が入力された時刻から所定期間が経過した後で、音声認識要求と共に入力された音声信号が入力された場合は、定期的な発声であると判定するので、再発声による認識精度を向上させることが可能となる。
次に、本発明に係る実施形態について、図面を参照しながら説明する。図1は、本実施形態に係る音声認識装置の概略構成を示す図である。図1において、認識処理要求受信手段10は、ユーザ端末からの音声認識要求と音声データを受信し、音声認識処理手段20に対して、認識処理を指示する。また、認識結果をユーザ端末に返信するほか、入力音声や認識結果、アクセス情報を各々のDBに蓄積する。音声認識処理手段20は、認識処理要求受信手段10から受信した認識要求に従い、音響モデル21、言語モデル22を用いて認識処理を行ない、認識結果を認識処理要求受信手段10に返信する。更新データがある場合には、ユーザIDなどから認識処理する。
再発声判定部30は、類似度測定手段31、再発声種別判定手段32、および過去履歴DB33を備えている。再発声判定部30では、音声が入力されると、過去の入力音声との比較を行ない、類似度を測定する。短時間に数回にわたり入力された音声が類似している場合には、語彙外(誤認識)発声と判定する。そして、音声認識処理において、該当する認識結果として認識されにくくするように、スコアを低減させる、若しくは、言語確率を下げる処理を行なう。一方、ある程度長い間隔で入力された音声が類似している場合には、定期発声(いつもの発声)と判定し、音声認識処理において、該当する認識結果として認識されやすくするように、スコアを上げる、若しくは、言語確率を上げる処理を行なう。認識処理後、認識結果は、過去履歴DB33に蓄積された過去履歴DBとの距離を求め、格納される。
更新データ手段40は、再発声種別判定手段32から入力される更新データ(ユーザID、認識結果、再発声種別)に基づいて、音声認識処理手段20または言語モデル22のデータを更新する。
図2は、類似度測定手段31の概略構成を示すブロック図である。類似度測定手段31は、入力音声と過去に発声された蓄積音声データの類似度を判定する。また、認識処理後は、認識結果(文字列)の距離を求め、認識結果間距離情報テーブルに格納する。求めた音声データ間の距離や、認識結果間の距離が閾値以下である場合に、両者が類似していると判定する。
図2において、類似度判定制御手段31aは、認識処理要求受信手段10から入力音声データとユーザID、また、蓄積音声DB33aにある同一ユーザIDの音声データを取得する。同様に、認識処理要求受信手段10からユーザIDと認識結果を受信した場合には、認識結果DB33bから、同一ユーザIDの音声データを取得する。なお、音声間距離テーブルや認識結果間距離情報テーブルに記載の情報を利用し、過去の再発声情報から、比較対象を絞ることも可能とする。
アクセス情報分析手段31bは、認識処理要求受信手段10から入力音声データとユーザIDを受信した後、該当ユーザIDのアクセス情報を取得し、類似度を判定するために用いる音声データを選択する。以下の2つの条件のどちらかを満足するものを、類似度を測定する音声データとして選択する。また、再発声種別DB33dの情報を元に、比較対象を絞り込む。
(1)現時刻からT以内の音声については、その中で類似度が低いもののみを選択する。
(2)現時国からT’以上の間隔があいた音声データを選択する。
データ加工手段31cは、入力音声、および蓄積音声DB33aから取得した音声データを同じ種類のデータ形式に加工する。例えば、両者がPCM等の音声データやスペクトル領域のデータである場合には、スペクトル領域のデータ、ケプストラム領域のデータ、VQデータなどに加工する。両者が、ケプストラム領域のデータの場合には、ケプストラム領域のデータ、VQデータなどに加工する。両者がVQデータの場合にはそのままにする。また認識結果の距離計算の場合には、認識結果を、仮名列や、音素列に変換する。
距離計算手段31dは、音声データ間の距離または、認識結果の距離を計算する。求めた距離は、音声間距離情報テーブルや認識結果間距離情報テーブル、および類似度判定手段31eに出力する。
類似度判定手段31eは、距離計算手段31dで求めた距離が閾値以下である場合に、類似していると判定する。類似していると判定した結果は、該当するデータの情報を、認識処理手段に出力する。
図3は、図2に示した距離計算手段31dが行なう距離計算方法の概念を示す図である。音声データからの距離計算では、異なるフレーム数の2つの音声の距離は、DTW(動的時間伸縮法)を用いて求める。各フレーム間の距離の例として、以下の距離尺度がある。
(1)対数スペクトル、LPCスペクトル、ケプストラム、VQデータのユークリッド距離。
(2)LPCスペクトルを用いた最尤スペクトル距離。
(3)Cosh尺度。
一方、認識結果からの距離計算では、レーベンシュタイン距離に基づく2つの認識結果の間の編集距離を求める。
図4は、図1に示した再発声種別判定手段32の動作の概念を示す図である。再発声種別判定手段32は、類似度判定手段31eによる判定の結果、類似度が高い音声について再発声種別を判定する。すなわち、再発声種別判定手段32は、時刻が、現時刻からT以内の発声については、語彙外または誤認識による発声であると判定する。一方、再発声種別判定手段32は、時刻が、T’以上の間隔にある発声については、定期発声(いつもの発声)であると判定する。再発声種別、認識結果、ユーザIDは、更新データ手段40に送信される。
図5は、図1に示した過去履歴DBの概略構成を示す図である。蓄積音声DB33aは、入力された音声を蓄積するDBである。蓄積される音声データは、PCM形式などの音声データの他、スペクトル領域のデータ、ケプストラム領域のデータ、VQデータなどであってもよい。認識結果DB33bは、認識結果を蓄積するDBである。蓄積される認識結果は、認識された文字および認識スコアである。認識スコアは、さらに音響尤度と言語確率に別けて保持してもよい。アクセス情報DB33cは、アクセス情報を蓄積するDBである。蓄積されるアクセス情報としては、アクセス時間、アクセスユーザID、および、対応する蓄積音声DBに格納された音声データ名、対応する認識結果DBに格納された認識結果ファイル名がある。再発声種別DB33dは、再発声の種別と距離を蓄積する。語彙外(誤認識)発声であるか、定期発声であるかという再発声の種別と、該当する音声、および認識結果のグループ情報、および、その中の距離情報を格納する。
図6は、図1に示した更新データ手段40によるデータ更新の概念を示す図である。再発声判定部30から音声認識処理手段20に対して、更新データ(ユーザID、認識結果、再発声種別)が入力される。音声認識処理手段20は、認識処理により得たNベスト(スコアが高い方からN個目までの認識結果)に対して、再発声リスコアリングテーブル20aに従ってスコアを変更する。その後、スコアが最大の認識結果を返信する。
図7は、図1に示した更新データ手段40によるデータ更新の他の概念を示す図である。再発声判定部30から言語モデル22に対して、直接、言語モデル22に登録されている言語確率(単語の確からしさを表す確率)を調整する。音声認識処理手段20は、その後、認識処理を実施する。
図8は、本実施形態に係る音声認識装置の動作を示すフローチャートである。音声認識装置は、認識要求を受信すると(ステップS1)、入力された音声データとユーザIDを再発声判定部30に入力する。そして、再発声判定部30では、類似度測定手段31が類似度を測定する。次に、再発声種別判定手段32が、再発声であるかどうかを判定する(ステップS2)。この判定の結果、再発声でない場合は、通常の認識処理を行なう(ステップS3)。すなわち、認識処理要求受信手段10から音声認識処理手段20に対して音声データおよびユーザIDが入力される。
一方、ステップS2において、再発声であると判定された場合は、再発声種別判定手段32が、語彙外(誤認識)発声、または定期発声のいずれか一方に分けられる。そして、データの更新を行ない(ステップS4)、リスコアリング調整または言語確率調整を実施する。すなわち、語彙外(誤認識)発声である場合は、認識結果のスコアを下げて、同じ結果が出にくいようにする。一方、定期発声である場合は、認識スコアを上げて、同じ結果が出やすいようにする。最後に、上記のように更新されたデータを用いて認識処理を実施する(ステップS5)。
以上のような本発明の特徴的な動作は、コンピュータにプログラムを実行させることによって行なうことが可能である。すなわち、本発明のプログラムは、時刻情報を用いて再発声の種別を判定するプログラムであって、音声認識要求と共に入力された音声信号と、過去に入力された音声信号との類似度を測定する処理と、前記測定の結果、前記音声認識要求と共に入力された音声信号と類似度の高い音声信号が過去に入力されていた場合、前記類似度の高い過去の音声信号が入力された時刻から所定期間内に前記音声認識要求と共に入力された音声信号が入力されたかどうかを判定する処理と、前記類似度の高い過去の音声信号が入力された時刻から所定期間内に、前記音声認識要求と共に入力された音声信号が入力された場合は、語彙外の再発声または誤認識による再発声であると判定する一方、前記類似度の高い過去の音声信号が入力された時刻から所定期間が経過した後で、前記音声認識要求と共に入力された音声信号が入力された場合は、定期的な発声であると判定する処理と、音響モデルおよび言語モデルを用いて、入力された音声信号の音声認識処理を行なう処理と、を含む一連の処理を、コンピュータで読み取りおよび実行可能にコマンド化したことを特徴としている。
このように、類似度の高い過去の音声信号が入力された時刻から所定期間内に、音声認識要求と共に入力された音声信号が入力された場合は、語彙外の再発声または誤認識による再発声であると判定する一方、類似度の高い過去の音声信号が入力された時刻から所定期間が経過した後で、音声認識要求と共に入力された音声信号が入力された場合は、定期的な発声であると判定するので、再発声による認識精度を向上させることが可能となる。
本実施形態に係る音声認識装置の概略構成を示す図である。 類似度測定手段31の概略構成を示すブロック図である。 図2に示した距離計算手段31dが行なう距離計算方法の概念を示す図である。 図1に示した再発声種別判定手段32の動作の概念を示す図である。 図1に示した過去履歴DBの概略構成を示す図である。 図1に示した更新データ手段40によるデータ更新の概念を示す図である。 図1に示した更新データ手段40によるデータ更新の他の概念を示す図である。 本実施形態に係る音声認識装置の動作を示すフローチャートである。
符号の説明
10 認識処理要求受信手段
20 音声認識処理手段
20a 再発声リスコアリングテーブル
21 音響モデル
22 言語モデル
30 再発声判定部
31 類似度測定手段
31a 類似度判定制御手段
31b アクセス情報分析手段
31c データ加工手段
31d 距離計算手段
31e 類似度判定手段
32 再発声種別判定手段
33 過去履歴DB
33a 蓄積音声DB
33b 認識結果DB
33c アクセス情報DB
33d 再発声種別DB
40 更新データ手段

Claims (6)

  1. 時刻情報を用いて再発声の種別を判定する音声認識装置であって、
    音声認識要求と共に入力された音声信号と、過去に入力された音声信号との類似度を測定する類似度測定手段と、
    前記測定の結果、前記音声認識要求と共に入力された音声信号と類似度の高い音声信号が過去に入力されていた場合、前記類似度の高い過去の音声信号が入力された時刻から所定期間内に前記音声認識要求と共に入力された音声信号が入力されたかどうかを判定する再発声種別判定手段と、
    音響モデルおよび言語モデルを用いて、入力された音声信号の音声認識処理を行なう音声認識処理手段と、を備え、
    前記再発声種別判定手段は、前記類似度の高い過去の音声信号が入力された時刻から所定期間内に、前記音声認識要求と共に入力された音声信号が入力された場合は、語彙外の再発声または誤認識による再発声であると判定する一方、前記類似度の高い過去の音声信号が入力された時刻から所定期間が経過した後で、前記音声認識要求と共に入力された音声信号が入力された場合は、定期的な発声であると判定することを特徴とする音声認識装置。
  2. 前記音声認識処理手段は、前記再発声種別判定手段の判定結果に応じて、前記音声認識要求と共に入力された音声信号に該当する認識結果の認識スコアを更新することを特徴とする請求項1記載の音声認識装置。
  3. 前記音声認識処理手段は、前記再発声種別判定手段が語彙外の再発声または誤認識による再発声であると判定した場合は、前記音声認識要求と共に入力された音声信号に該当する認識結果の認識スコアを減少させる一方、前記再発声種別判定手段が定期的な発声であると判定した場合は、前記音声認識要求と共に入力された音声信号に該当する認識結果の認識スコアを増加させることを特徴とする請求項2記載の音声認識装置。
  4. 前記音声認識処理手段は、前記再発声種別判定手段の判定結果に応じて、前記音声認識要求と共に入力された音声信号に該当する認識結果の言語確率を変更することを特徴とする請求項1記載の音声認識装置。
  5. 前記音声認識処理手段は、前記再発声種別判定手段が語彙外の再発声または誤認識による再発声であると判定した場合は、前記音声認識要求と共に入力された音声信号に該当する認識結果の言語確率を減少させる一方、前記再発声種別判定手段が定期的な発声であると判定した場合は、前記音声認識要求と共に入力された音声信号に該当する認識結果の言語確率を増加させることを特徴とする請求項4記載の音声認識装置。
  6. 時刻情報を用いて再発声の種別を判定するプログラムであって、
    音声認識要求と共に入力された音声信号と、過去に入力された音声信号との類似度を測定する処理と、
    前記測定の結果、前記音声認識要求と共に入力された音声信号と類似度の高い音声信号が過去に入力されていた場合、前記類似度の高い過去の音声信号が入力された時刻から所定期間内に前記音声認識要求と共に入力された音声信号が入力されたかどうかを判定する処理と、
    前記類似度の高い過去の音声信号が入力された時刻から所定期間内に、前記音声認識要求と共に入力された音声信号が入力された場合は、語彙外の再発声または誤認識による再発声であると判定する一方、前記類似度の高い過去の音声信号が入力された時刻から所定期間が経過した後で、前記音声認識要求と共に入力された音声信号が入力された場合は、定期的な発声であると判定する処理と、
    音響モデルおよび言語モデルを用いて、入力された音声信号の音声認識処理を行なう処理と、を含む一連の処理を、コンピュータで読み取りおよび実行可能にコマンド化したことを特徴とするプログラム。
JP2008208540A 2008-08-13 2008-08-13 音声認識装置およびプログラム Withdrawn JP2010044239A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008208540A JP2010044239A (ja) 2008-08-13 2008-08-13 音声認識装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008208540A JP2010044239A (ja) 2008-08-13 2008-08-13 音声認識装置およびプログラム

Publications (1)

Publication Number Publication Date
JP2010044239A true JP2010044239A (ja) 2010-02-25

Family

ID=42015669

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008208540A Withdrawn JP2010044239A (ja) 2008-08-13 2008-08-13 音声認識装置およびプログラム

Country Status (1)

Country Link
JP (1) JP2010044239A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016062069A (ja) * 2014-09-22 2016-04-25 株式会社日立製作所 音声認識方法、及び音声認識装置
JP2016180916A (ja) * 2015-03-25 2016-10-13 日本電信電話株式会社 音声認識システム、音声認識方法、プログラム
JP2021039326A (ja) * 2019-09-05 2021-03-11 サウンドハウンド,インコーポレイテッド 問合せの検出および訂正のためのシステムおよび方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016062069A (ja) * 2014-09-22 2016-04-25 株式会社日立製作所 音声認識方法、及び音声認識装置
JP2016180916A (ja) * 2015-03-25 2016-10-13 日本電信電話株式会社 音声認識システム、音声認識方法、プログラム
JP2021039326A (ja) * 2019-09-05 2021-03-11 サウンドハウンド,インコーポレイテッド 問合せの検出および訂正のためのシステムおよび方法
US11263198B2 (en) 2019-09-05 2022-03-01 Soundhound, Inc. System and method for detection and correction of a query
JP7066667B2 (ja) 2019-09-05 2022-05-13 サウンドハウンド,インコーポレイテッド 問合せの検出および訂正のための方法、プログラム、および、システム

Similar Documents

Publication Publication Date Title
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
US8140330B2 (en) System and method for detecting repeated patterns in dialog systems
JP5282737B2 (ja) 音声認識装置および音声認識方法
US6304844B1 (en) Spelling speech recognition apparatus and method for communications
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
TWI396184B (zh) 一種語音辨認所有語言及用語音輸入單字的方法
EP1701338B1 (en) Speech recognition method
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
CN110706714B (zh) 说话者模型制作系统
EP2048655A1 (en) Context sensitive multi-stage speech recognition
JP2005208643A (ja) ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法
KR101587866B1 (ko) 음성 인식용 발음사전 확장 장치 및 방법
JP2018136493A (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
EP1734509A1 (en) Method and system for speech recognition
JP2016062069A (ja) 音声認識方法、及び音声認識装置
JP2018045127A (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
JP2010044239A (ja) 音声認識装置およびプログラム
CN110189750B (zh) 词语检测系统、词语检测方法以及记录介质
JP2000250593A (ja) 話者認識装置及び方法
JP6852029B2 (ja) ワード検出システム、ワード検出方法及びワード検出プログラム
JP5336788B2 (ja) 音声認識装置およびプログラム
Prukkanon et al. F0 contour approximation model for a one-stream tonal word recognition system
KR20210052564A (ko) 빅 데이터를 이용한 최적의 언어 모델 생성 방법 및 이를 위한 장치
JP2010044241A (ja) 音声認識装置および音声認識装置の制御プログラム
KR100584906B1 (ko) 억양의 유사도 측정방법

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20111101