JP2016099501A - 音声認識装置、音声認識方法及び音声認識プログラム - Google Patents

音声認識装置、音声認識方法及び音声認識プログラム Download PDF

Info

Publication number
JP2016099501A
JP2016099501A JP2014236529A JP2014236529A JP2016099501A JP 2016099501 A JP2016099501 A JP 2016099501A JP 2014236529 A JP2014236529 A JP 2014236529A JP 2014236529 A JP2014236529 A JP 2014236529A JP 2016099501 A JP2016099501 A JP 2016099501A
Authority
JP
Japan
Prior art keywords
user information
user
voice
occurrence frequency
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014236529A
Other languages
English (en)
Other versions
JP6363478B2 (ja
Inventor
麻衣子 井元
Maiko Imoto
麻衣子 井元
丈二 中山
Joji Nakayama
丈二 中山
智広 山田
Tomohiro Yamada
智広 山田
滋 藤村
Shigeru Fujimura
滋 藤村
えりか 足利
Erika Ashikaga
えりか 足利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014236529A priority Critical patent/JP6363478B2/ja
Publication of JP2016099501A publication Critical patent/JP2016099501A/ja
Application granted granted Critical
Publication of JP6363478B2 publication Critical patent/JP6363478B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】より適切な音声認識結果を提示する。【解決手段】ユーザ情報格納部11が、ユーザの利用するサービスからユーザの状況を示すユーザ情報を取得してユーザ情報DB12に格納しておき、音声入力部13がユーザの音声を入力したときに情報送信部14が音声入力時刻に対応するユーザ情報を取得し、リランキング実行部33がユーザ情報に含まれる単語を抽出するとともに、2つの単語の組合せの共起関係に関する情報を格納したコンテキスト情報DB34からリランキング実行部33が抽出した単語を含む単語の共起頻度の組Sを検索し、単語の共起頻度の組Sの中から音声認識部32の音声認識結果である変換候補それぞれに含まれる単語を含む単語の共起頻度の組S’を抽出し、その共起頻度に基づいて変換候補を並べ替える。これにより、ユーザのコンテキストを考慮した、より適切な音声認識結果を提示することが可能となる。【選択図】図1

Description

本発明は、音声認識技術に関する。
近年、スマートフォンやタブレットのようなモバイル端末向けの音声認識サービスが普及しつつあり、今後、音声認識機能を提供するサービスが拡大することが予測される。
従来の音声認識技術は、入力された音声を4つのステップでテキスト化する(非特許文献1参照)。第1のステップでは、入力された音声を分析し、音声信号から雑音を除去し、音声認識の手掛かりとなる音響特徴を抽出する。第2のステップでは、各音素の特徴を蓄積した音響モデルを用いて、入力された音声を言葉の最小単位である音素を表す記号に変換する。第3のステップでは、音素列と単語の対応関係を蓄積した認識辞書を用いて音素列を単語に変換する。第4のステップでは、言葉遣いや言い回しを蓄積した言語モデルを用いて、各変換候補に対して妥当性の指標となるスコアを算出する。言語モデルは、単語のつながりのルールを統計値として保持している。音声認識結果として出力される変換候補は、最も妥当な変換候補のみを出力することもあれば、N−Best解といわれる妥当性の高い順のN個の変換候補を出力することもあり、変換候補の出力数は音声認識サービスに依存する。
"音声認識ソリューション 認識精度の向上で実用段階に入った音声認識技術"、[online]、2012年10月30日、株式会社インプレス、[2014年9月26日検索]、インターネット〈 URL:http://it.impressbm.co.jp/articles/-/10240/〉
変換候補の妥当性は、発話時の発話者の置かれた状況や背景(コンテキスト)に依存するが、発話者のコンテキストを考慮しない場合は、適切でない音声認識結果を提示するという問題があった。例えば、「おいしいかきをたべたい」という音声が入力されたときに、「かき」という言葉に対して果物の「柿」と貝類の「牡蠣」のどちらが適切であるかの判別が難しい。
本発明は、上記に鑑みてなされたものであり、より適切な音声認識結果を提示することを目的とする。
第1の本発明に係る音声認識装置は、ユーザの状況を示すユーザ情報を格納したユーザ情報蓄積手段と、複数の単語と当該単語間の共起頻度を含む共起頻度情報を格納した共起頻度蓄積手段と、前記ユーザの音声を入力して音声認識を実行し、変換候補を得る音声認識手段と、前記ユーザ情報蓄積手段から前記ユーザが音声を入力した音声入力時刻に対応する前記ユーザ情報を取得して当該ユーザ情報に含まれる単語を抽出するとともに、前記変換候補に含まれる単語を抽出し、それぞれから抽出した単語を含む前記共起頻度情報の共起頻度に基づいて前記変換候補を並べ替える変換候補整列手段と、を有することを特徴とする。
上記音声認識装置において、前記音声認識手段は、前記変換候補に候補の妥当性を示すスコアを付与し、前記変換候補整列手段は、前記変換候補それぞれについて、前記共起頻度情報の共起頻度を加算した値を前記変換候補に付与された前記スコアに加味して前記スコアを再計算し、再計算した前記スコアに基づいて前記変換候補を並び替えることを特徴とする。
上記音声認識装置において、前記音声認識手段は、音声認識を実行した結果から前記音声が示す時間を判定し、前記変換候補整列手段は、前記ユーザ情報蓄積手段から前記時間に対応する前記ユーザ情報を取得することを特徴とする。
第2の本発明に係る音声認識方法は、コンピュータにより実行される音声認識方法であって、ユーザの音声を入力して音声認識を実行し、変換候補を得るステップと、ユーザの状況を示すユーザ情報を格納したユーザ情報蓄積手段から、前記ユーザが音声を入力した音声入力時刻に対応する前記ユーザ情報を取得し、当該ユーザ情報に含まれる単語を抽出するステップと、前記変換候補に含まれる単語を抽出するステップと、複数の単語と当該単語間の共起頻度を含む共起頻度情報を格納した共起頻度蓄積手段から、前記ユーザ情報と前記変換候補のそれぞれから抽出した単語が含まれる前記共起頻度情報を取得し、当該共起頻度情報の共起頻度に基づいて前記変換候補を並べ替えるステップと、を有することを特徴とする。
第3の本発明に係る音声認識プログラムは、上記音声認識装置の各手段としてコンピュータを動作させることを特徴とする。
本発明によれば、より適切な音声認識結果を提示することができる。
本実施の形態における音声認識システムの構成を示す機能ブロック図である。 ユーザ情報データベースが保持するデータの例を示す図である。 コンテキスト情報データベースが保持するデータの例を示す図である。 本実施の形態における音声認識システムの処理の流れを示すフローチャートである。 本実施の形態におけるリランキング実行部の処理の流れを示すフローチャートである。 リランキング実行部の処理を具体的に説明する図である。
以下、本発明の実施の形態について図面を用いて説明する。
図1は、本実施の形態における音声認識システムの構成を示す機能ブロック図である。同図に示す音声認識システムは、クライアント端末1とサーバ3を備える。本音声認識システムは、ユーザが利用するサービスからユーザのコンテキストを推定するためのユーザに関するユーザ情報を取得して格納しておき、ユーザが音声を入力したときに、その音声を認識して変換候補を得た後、得られた変換候補を、ユーザ情報に基づいてユーザのコンテキストにあった適切な順序に並べ替えて提示する音声認識システムである。以下、クライアント端末1とサーバ3について説明する。
クライアント端末1は、ユーザ情報格納部11、ユーザ情報データベース(DB)12、音声入力部13、情報送信部14、認識結果受信部15、および表示部16を備える。
ユーザ情報格納部11は、ユーザが利用するサービスからユーザ情報を取得し、ユーザ情報DB12に格納する。ユーザ情報の例としては、例えば、スケジュール管理サービスから取得できるユーザのスケジュールに関する情報、コメント投稿サービスから取得できるユーザの投稿したコメントに関する情報がある。ユーザ情報を取得する対象のサービスは予め登録して本音声認識システムに連携させておく。ユーザ情報格納部11は、連携させたサービスでユーザ情報が更新されたタイミングで処理を実行し、ユーザ情報DB12に格納されたユーザ情報を随時更新する。例えば、スケジュール管理サービスで新たなスケジュールが追加されたときはレコードを追加してユーザ情報を新規登録し、スケジュールが更新されたときはユーザ情報DB12に格納した情報を書き換える。
ユーザ情報DB12は、各サービスから取得したユーザ情報を保持する。図2に、ユーザ情報DB12が保持するデータの例を示す。図2の例では、ユーザ情報DB12は、項目カラム、日にちカラム、時間カラムで構成されたレコードを保持している。項目カラムには、ユーザの状況を示す情報が格納される。例えば、連携させるサービスとして、スケジュール管理サービスが設定されているときは、ユーザ情報格納部11は、スケジュール管理サービスに登録されている予定の項目と日時を取得して、ユーザ情報DB12の項目カラム、日にちカラム、時間カラムに格納する。また、連携させるサービスとして、コメント投稿サービスが設定されているときは、ユーザ情報格納部11は、ユーザによってコメント投稿サービスに投稿された投稿内容と日時を取得して、ユーザ情報DB12の項目カラム、日にちカラム、時間カラムに格納する。
連携しているサービスからユーザ情報を取得する方法として、例えばOAuthを用いることができる(参考URL http://oauth.net/)。OAuthとは、あるウェブサービスAにおいてユーザが持つリソースとユーザがアクセス権限を持つ各種機能に対し、ユーザの許可を受けた他のウェブサービスBがアクセスするための仕組みである。ユーザがウェブサービスBにウェブサービスAへのアクセスの許可を与えておくことで、ウェブサービスBは許可を与えられた範囲で、ウェブサービスAの提供するAPI(Application Programming Interface)にアクセスできる。
音声入力部13は、音声認識すべきユーザの音声を入力し、入力した音声情報を情報送信部14に送信する。
情報送信部14は、音声入力部13から音声情報を受信するとともに、音声入力部13に音声が入力された時刻である音声入力時刻に対応するユーザ情報をユーザ情報DB12から取得し、取得したユーザ情報と音声情報をサーバ3に送信する。ユーザ情報を取得するときは、ユーザ情報DB12の日にちカラム、時間カラムが音声入力時刻を含むレコードの項目カラムをユーザ情報として取得する。例えば、図2に示すデータがユーザ情報DB12に格納されており、音声入力時刻が「2014/9/27 18:40」であるとき、情報送信部14は、音声入力時刻を含むレコードの項目カラムに格納されている情報(図2では「家族と広島旅行」)をユーザ情報I={家族と広島旅行}とする。このとき、日にちカラムが音声入力時刻の日にちと同じレコードの項目カラムに格納されている情報(図2では「厳島神社すごい。」)を取得し、ユーザ情報I={家族と広島旅行,厳島神社すごい。}としてもよい。音声入力時刻に対してユーザ情報DB12から取得するレコードのルールは予め設定しておく。
認識結果受信部15は、サーバ3から音声情報の音声認識結果である変換候補を受信して表示部16に表示させる。
表示部16は、入力した音声の変換候補を所定の位置に表示する。
サーバ3は、情報受信部31、音声認識部32、リランキング実行部33、およびコンテキスト情報DB34を備える。
情報受信部31は、クライアント端末1から音声情報とユーザ情報を受信し、音声認識部32に送信する。
音声認識部32は、受信した音声情報に対して音声認識を実行して変換候補を得て、得られた変換候補とユーザ情報をリランキング実行部33に送信する。各変換候補には、候補の妥当性を示すスコアが付与される。音声認識の実行には、周知の音声認識技術を用いる。
また、音声認識部32は、音声情報の時制を判定し、判定した時制が「未来」の特定の時間もしくは「過去」の特定の時間である場合は、クライアント端末1のユーザ情報DB12からその時間に対応するユーザ情報を取得してリランキング実行部33に送信する。例えば、音声情報に「明日」や「昨日」などの具体的な未来や過去を示す表現が含まれているときは、その表現が示す日時に対応するユーザ情報をユーザ情報DB12から取得し、取得したユーザ情報をリランキング実行部33に送信する。
リランキング実行部33は、コンテキスト情報DB34に格納された単語の組合せの共起関係に関する情報を参照し、変換候補に含まれる単語とユーザ情報に含まれる単語の共起関係に基づいて変換候補のスコアを再計算する。リランキング実行部33の具体的な処理については後述する。
コンテキスト情報DB34は、2つの単語の組合せの共起関係に関する情報を保持する。図3に、コンテキスト情報DB34が保持するデータの例を示す。同図の例では、単語1カラム、単語2カラム、共起頻度カラムで構成されたレコードを保持している。例えば、既知の共起頻度計算プログラムN−gram(参考URL http://oscar.gsid.nagoya−u.ac.jp/project/elc/genkou/ngrampaper2/node8.html)、単語共起頻度データベース(参考URL https://alaginrc.nict.go.jp)を用いて2つの単語同士の共起頻度を算出し、その値を共起頻度カラムに格納する。
クライアント端末1、サーバ3が備える各部は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムはクライアント端末1、サーバ3が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。ここでは、各機能をクライアント端末1とサーバ3に分けたが、本システムを一つの装置で実現してもよい。
次に、本実施の形態における音声認識システムの動作について説明する。
図4は、本実施の形態における音声認識システムの処理の流れを示すフローチャートである。なお、ユーザ情報格納部11は、連携されたサービスからユーザ情報を随時収集してユーザ情報DB12に格納しているとする。
音声入力部13が音声を入力すると、情報送信部14は、音声入力時刻に対応するユーザ情報をユーザ情報DB12から取得し、音声情報とユーザ情報をサーバ3に送信する(ステップS11)。
情報受信部31は、クライアント端末1から受信した音声情報とユーザ情報を音声認識部32に送信し、音声認識部32は、音声情報に対して音声認識を実行して変換候補を得る(ステップS12)。
音声認識部32は、音声認識を実行した結果から時制を判定し(ステップS13)、判定した時制が「未来」又は「過去」の特定の時間である場合は(ステップS14のYES)、その時間に対応するユーザ情報をユーザ情報DB12から取得する(ステップS15)。
リランキング実行部33は、ユーザ情報に含まれる単語と変換候補に含まれる単語との共起関係をコンテキスト情報DB34から検索し、その共起関係に基づいて変換候補のスコアを再計算し、再計算したスコアに基づいて変換候補をリランキングする(ステップS16)。クライアント端末1は、スコアの高い順にリランキングした変換候補をユーザに提示する。
次に、変換候補のリランキングの処理の流れについて説明する。
図5は、本実施の形態におけるリランキング実行部33の処理の流れを示すフローチャートである。図6は、図5の処理を具体的に説明するための図である。リランキング実行部33は、音声認識部32から変換候補Rとユーザ情報Iを受信すると以下の処理を実行する。図6に示すように、音声認識部32が音声認識を実行した結果である変換候補Rにはスコアが付与されている。
リランキング実行部33は、ユーザ情報Iを形態素解析して名詞Nを抽出する(ステップS21)。例えば、ユーザ情報I={家族と広島旅行,厳島神社すごい}のときは、N={家族,広島,旅行,厳島,神社}が抽出される。形態素解析には、例えば、既知の形態素解析エンジンであるMeCabを用いることができる(参考URL https://code.google.com/p/mecab/)。
リランキング実行部33は、ステップS21で抽出した名詞Nそれぞれに対して、その名詞がコンテキスト情報DB34の単語1カラムもしくは単語2カラムに格納されているレコードを検索し、単語の共起頻度の組Sを取得する(ステップS22)。例えば、N={家族,広島,旅行,厳島,神社}でコンテキスト情報DB34に図3に示すデータが格納されているときは、図6に示すように、リランキング実行部33は単語の共起頻度の組S={[広島,柿,2],[広島,牡蠣,5]}を取得する。
リランキング実行部33は、変換候補Rそれぞれのスコアを再計算する(ステップS23)。具体的には、例えば、ステップS22で取得した単語の共起頻度の組Sの中から、変換候補Rのn番目の変換候補R(n)に含まれる名詞を含む単語の共起頻度の組S’を抽出する。そして、スコアrescore(R(n))を次式(1)で算出する。
Figure 2016099501
ここで、S’(i)は、i番目の単語の共起頻度の組S’の共起頻度カラムに格納されている数値を表し、mは単語の共起頻度の組S’の要素の数を表す。また、α>0である。
リランキング実行部33は、ステップ23で算出したスコアrescore(R(n))の降順に変換候補Rを並び替えて変換候補Rを生成する(ステップS24)。図6に示す例では、変換候補Rが変換候補Rのように並べ替えられてクライアント端末1に送信される。
以上説明したように、本実施の形態によれば、ユーザ情報格納部11が、ユーザの利用するサービスからユーザの状況を示すユーザ情報を取得してユーザ情報DB12に格納しておき、音声入力部13がユーザの音声を入力したときに情報送信部14が音声入力時刻に対応するユーザ情報を取得し、リランキング実行部33がユーザ情報に含まれる単語を抽出するとともに、2つの単語の組合せの共起関係に関する情報を格納したコンテキスト情報DB34からリランキング実行部33が抽出した単語を含む単語の共起頻度の組Sを検索し、単語の共起頻度の組Sの中から音声認識部32の音声認識結果である変換候補それぞれに含まれる単語を含む単語の共起頻度の組S’を抽出し、その共起頻度に基づいて変換候補を並べ替えることにより、ユーザのコンテキストを考慮した、より適切な音声認識結果を提示することが可能となる。
本実施の形態によれば、音声認識部32がユーザの音声が示す特定の時間を判定し、リランキング実行部33が特定の時間に対応するユーザ情報を取得することにより、ユーザの音声の示す時間に対応するコンテキストに基づいて、より適切な音声認識結果を提示することが可能となる。
1…クライアント端末
11…ユーザ情報格納部
12…ユーザ情報DB
13…音声入力部
14…情報送信部
15…認識結果受信部
16…表示部
3…サーバ
31…情報受信部
32…音声認識部
33…リランキング実行部
34…コンテキスト情報DB

Claims (5)

  1. ユーザの状況を示すユーザ情報を格納したユーザ情報蓄積手段と、
    複数の単語と当該単語間の共起頻度を含む共起頻度情報を格納した共起頻度蓄積手段と、
    前記ユーザの音声を入力して音声認識を実行し、変換候補を得る音声認識手段と、
    前記ユーザ情報蓄積手段から前記ユーザが音声を入力した音声入力時刻に対応する前記ユーザ情報を取得して当該ユーザ情報に含まれる単語を抽出するとともに、前記変換候補に含まれる単語を抽出し、それぞれから抽出した単語を含む前記共起頻度情報の共起頻度に基づいて前記変換候補を並べ替える変換候補整列手段と、
    を有することを特徴とする音声認識装置。
  2. 前記音声認識手段は、前記変換候補に候補の妥当性を示すスコアを付与し、
    前記変換候補整列手段は、前記変換候補それぞれについて、前記共起頻度情報の共起頻度を加算した値を前記変換候補に付与された前記スコアに加味して前記スコアを再計算し、再計算した前記スコアに基づいて前記変換候補を並び替えることを特徴とする請求項1記載の音声認識装置。
  3. 前記音声認識手段は、音声認識を実行した結果から前記音声が示す時間を判定し、
    前記変換候補整列手段は、前記ユーザ情報蓄積手段から前記時間に対応する前記ユーザ情報を取得することを特徴とする請求項1又は2記載の音声認識装置。
  4. コンピュータにより実行される音声認識方法であって、
    ユーザの音声を入力して音声認識を実行し、変換候補を得るステップと、
    ユーザの状況を示すユーザ情報を格納したユーザ情報蓄積手段から、前記ユーザが音声を入力した音声入力時刻に対応する前記ユーザ情報を取得し、当該ユーザ情報に含まれる単語を抽出するステップと、
    前記変換候補に含まれる単語を抽出するステップと、
    複数の単語と当該単語間の共起頻度を含む共起頻度情報を格納した共起頻度蓄積手段から、前記ユーザ情報と前記変換候補のそれぞれから抽出した単語が含まれる前記共起頻度情報を取得し、当該共起頻度情報の共起頻度に基づいて前記変換候補を並べ替えるステップと、
    を有することを特徴とする音声認識方法。
  5. 請求項1乃至3のいずれかに記載の音声認識装置の各手段としてコンピュータを動作させることを特徴とする音声認識プログラム。
JP2014236529A 2014-11-21 2014-11-21 音声認識装置、音声認識方法及び音声認識プログラム Active JP6363478B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014236529A JP6363478B2 (ja) 2014-11-21 2014-11-21 音声認識装置、音声認識方法及び音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014236529A JP6363478B2 (ja) 2014-11-21 2014-11-21 音声認識装置、音声認識方法及び音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2016099501A true JP2016099501A (ja) 2016-05-30
JP6363478B2 JP6363478B2 (ja) 2018-07-25

Family

ID=56077793

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014236529A Active JP6363478B2 (ja) 2014-11-21 2014-11-21 音声認識装置、音声認識方法及び音声認識プログラム

Country Status (1)

Country Link
JP (1) JP6363478B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018173522A (ja) * 2017-03-31 2018-11-08 大日本印刷株式会社 音声認識装置、音声認識方法、及びプログラム
DE112017002534T5 (de) 2016-05-18 2019-01-31 Sumitomo Electric Industries, Ltd. Aluminiumlegierung und Verfahren zur Herstellung einer Aluminiumlegierung
CN109791767A (zh) * 2016-09-30 2019-05-21 罗伯特·博世有限公司 用于语音识别的系统和方法
US11929081B2 (en) 2021-02-02 2024-03-12 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007187975A (ja) * 2006-01-16 2007-07-26 Nissan Motor Co Ltd 音声認識装置および音声認識方法
JP2011203434A (ja) * 2010-03-25 2011-10-13 Fujitsu Ltd 音声認識装置及び音声認識方法
JP2013137458A (ja) * 2011-12-28 2013-07-11 Toyota Motor Corp 音声認識装置、方法、及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007187975A (ja) * 2006-01-16 2007-07-26 Nissan Motor Co Ltd 音声認識装置および音声認識方法
JP2011203434A (ja) * 2010-03-25 2011-10-13 Fujitsu Ltd 音声認識装置及び音声認識方法
JP2013137458A (ja) * 2011-12-28 2013-07-11 Toyota Motor Corp 音声認識装置、方法、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
岩本秀明: "次発話予測モデルによる音声認識候補の再順序付け", 情報処理学会研究報告, vol. 2000, no. 11, JPN6017044887, 28 January 2000 (2000-01-28), JP, pages 135 - 140, ISSN: 0003687258 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112017002534T5 (de) 2016-05-18 2019-01-31 Sumitomo Electric Industries, Ltd. Aluminiumlegierung und Verfahren zur Herstellung einer Aluminiumlegierung
CN109791767A (zh) * 2016-09-30 2019-05-21 罗伯特·博世有限公司 用于语音识别的系统和方法
CN109791767B (zh) * 2016-09-30 2023-09-05 罗伯特·博世有限公司 用于语音识别的系统和方法
JP2018173522A (ja) * 2017-03-31 2018-11-08 大日本印刷株式会社 音声認識装置、音声認識方法、及びプログラム
US11929081B2 (en) 2021-02-02 2024-03-12 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Also Published As

Publication number Publication date
JP6363478B2 (ja) 2018-07-25

Similar Documents

Publication Publication Date Title
US10083690B2 (en) Better resolution when referencing to concepts
US11762926B2 (en) Recommending web API's and associated endpoints
CN111710333B (zh) 用于生成语音转录的方法和系统
US7966171B2 (en) System and method for increasing accuracy of searches based on communities of interest
US20160188292A1 (en) System and method for interpreting natural language inputs based on storage of the inputs
JP3930138B2 (ja) 情報解析方法および情報解析プログラムを記憶した媒体
US8682661B1 (en) Robust speech recognition
JP4722195B2 (ja) データベース・メッセージ分析支援プログラム、方法及び装置
US11347947B2 (en) Encoder with double decoder machine learning models
US8731930B2 (en) Contextual voice query dilation to improve spoken web searching
JP6363478B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
CN110827805A (zh) 语音识别模型训练方法、语音识别方法和装置
JPWO2012165529A1 (ja) 言語モデル構築支援装置、方法及びプログラム
JP5068225B2 (ja) 音声ファイルの検索システム、方法及びプログラム
JPWO2018173943A1 (ja) データ構造化装置、データ構造化方法およびプログラム
JP2013109635A (ja) 単語重要度算出装置とその方法とプログラム
KR102422844B1 (ko) 인공지능에 기반하여 영상 컨텐츠의 언어 위기를 관리하는 방법
JP2015084047A (ja) 文集合作成装置、文集合作成方法および文集合作成プログラム
JP6347939B2 (ja) 発話内重要語抽出装置とその装置を用いた発話内重要語抽出システムと、それらの方法とプログラム
JP6115487B2 (ja) 情報収集方法、対話システム及び情報収集装置
JP5670293B2 (ja) 単語追加装置、単語追加方法、およびプログラム
JP5860439B2 (ja) 言語モデル作成装置とその方法、そのプログラムと記録媒体
JP6585288B2 (ja) 知識構築活用システムおよびプログラム
JP2010257085A (ja) 検索装置、検索方法、および検索プログラム
KR101072890B1 (ko) 데이터베이스 정제 장치 및 그 방법, 이를 이용한 음성 이해 장치 및 그 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161212

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171128

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180626

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180628

R150 Certificate of patent or registration of utility model

Ref document number: 6363478

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150