JP2014170185A - 発話コマンド認識システム - Google Patents
発話コマンド認識システム Download PDFInfo
- Publication number
- JP2014170185A JP2014170185A JP2013043104A JP2013043104A JP2014170185A JP 2014170185 A JP2014170185 A JP 2014170185A JP 2013043104 A JP2013043104 A JP 2013043104A JP 2013043104 A JP2013043104 A JP 2013043104A JP 2014170185 A JP2014170185 A JP 2014170185A
- Authority
- JP
- Japan
- Prior art keywords
- command
- voice
- unit
- utterance
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005540 biological transmission Effects 0.000 claims description 28
- 238000013500 data storage Methods 0.000 claims description 27
- 238000000034 method Methods 0.000 claims description 25
- 230000006870 function Effects 0.000 description 69
- 238000010586 diagram Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 239000002131 composite material Substances 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012508 change request Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Abstract
【解決手段】コマンド重み記憶部171には、認識対象となる発話コマンドの表記が記録されている。音声認識部172は、クライアント端末から送られてくる、ユーザが発話した音声の音声データに対して音声認識を行い、上記音声に含まれている単語毎に、その単語に対する候補単語と該候補単語に対する信頼度とを求め、求めた候補単語の中から信頼度が高い順に複数の候補単語を選択する。コマンド認識部173は、コマンド重み記憶部171に表記が記録されている発話コマンドであって、その発話コマンドの表記と同一の表記が、音声認識部172で選択された候補単語を連結した候補単語列に存在する発話コマンドを、上記音声に含まれている発話コマンドと認識する。
【選択図】図17
Description
そこで、本発明に目的は、音声認識結果が端末操作可能な発話コマンド以外のものになってしまう危険性があるという課題を解決した発話コマンド認識システムを提供することにある。
クライアント端末と音声認識サーバとを備え、
前記音声認識サーバは、
認識対象となる発話コマンドの表記が記録されたコマンド重み記憶部と、
前記クライアント端末から送られてくる、ユーザが発話した音声の音声データに対して音声認識を行い、前記音声に含まれている単語毎に、その単語に対する候補単語と該候補単語に対する信頼度とを求め、該求めた候補単語の中から信頼度が高い順に複数の候補単語を選択する音声認識部と、
前記コマンド重み記憶部に表記が記録されている発話コマンドであって、その発話コマンドの表記と同一の表記が、前記音声認識部で選択された候補単語を連結した候補単語列に存在する発話コマンドを、前記音声に含まれている発話コマンドと認識するコマンド認識部とを備える。
認識対象となる発話コマンドの表記が記録されたコマンド重み記憶部と、
クライアント端末から送られてくる、ユーザが発話した音声の音声データに対して音声認識を行い、前記音声に含まれている単語毎に、その単語に対する候補単語と該候補単語に対する信頼度とを求め、該求めた候補単語の中から信頼度が高い順に複数の候補単語を選択する音声認識部と、
前記コマンド重み記憶部に表記が記録されている発話コマンドであって、その発話コマンドの表記と同一の表記が、前記音声認識部で選択された候補単語を連結した候補単語列に存在する発話コマンドを、前記音声に含まれている発話コマンドと認識するコマンド認識部とを備える。
認識対象となる発話コマンドの表記が記録されたコマンド重み記憶部と、音声認識部と、コマンド認識部とを備えたコンピュータが実行する発話コマンド認識方法であって、
前記音声認識武が、前記クライアント端末から送られてくる、ユーザが発話した音声の音声データに対して音声認識を行い、前記音声に含まれている単語毎に、その単語に対する候補単語と該候補単語に対する信頼度とを求め、該求めた候補単語の中から信頼度が高い順に複数の候補単語を選択し、
コマンド認識武が、前記コマンド重み記憶部に表記が記録されている発話コマンドであって、その発話コマンドの表記と同一の表記が、前記音声認識部で選択された候補単語を連結した候補単語列に存在する発話コマンドを、前記音声に含まれている発話コマンドと認識する。
認識対象となる発話コマンドの表記が記録されたコマンド重み記憶部を備えたコンピュータを、
クライアント端末から送られてくる、ユーザが発話した音声の音声データに対して音声認識を行い、前記音声に含まれている単語毎に、その単語に対する候補単語と該候補単語に対する信頼度とを求め、該求めた候補単語の中から信頼度が高い順に複数の候補単語を選択する音声認識部、
前記コマンド重み記憶部に表記が記録されている発話コマンドであって、その発話コマンドの表記と同一の表記が、前記音声認識部で選択された候補単語を連結した候補単語列に存在する発話コマンドを、前記音声に含まれている発話コマンドと認識するコマンド認識部として機能させる。
図1を参照すると、本発明の第1の実施の形態に係る発話コマンド認識システムは、音声認識サーバ1と、スマートフォン等のモバイル端末やパーソナルコンピュータ等により実現されるクライアント端末2−1〜2−nと、アプリケーション一覧情報記憶部31を有するクラウドサーバ3とを備え、それらはネットワークNWを介して相互に接続されている。なお、クラウドサーバ3のアプリケーション一覧情報記憶部31には、クライアント端末2−1〜2−nのユーザのユーザ名に関連付けて、そのクライアント端末にインストールされているアプリケーションのアプリケーション名が記録されている。
次に、本実施の形態の動作について詳細に説明する。
×10+(デフォルト値) ・・・ (2)
=114÷160×10+1
=8.125 ・・・ (3)
本実施の形態によれば、音声認識結果が端末操作可能な発話コマンド以外のものになってしまう危険性を少なくすることができる、という効果を得ることができる。その理由は、コマンド重み記憶部112に表記が記録されている発話コマンドであって、その発話コマンドの表記と同一の表記が、音声認識部103で選択された候補単語を連結した候補単語列に存在する発話コマンドを、上記音声に含まれている発話コマンドと認識するコマンド認識部104を備えているからである。
次に、本発明の第2の実施の形態に係る発話コマンド認識システムについて説明する。
本発明によれば、音声認識結果が端末操作可能な発話コマンド以外のものになってしまう危険性を少なくすることができる、という効果を得ることができる。その理由は、コマンド重み記憶部171に表記が記録されている発話コマンドであって、その発話コマンドの表記と同一の表記が、音声認識部172で選択された候補単語を連結した候補単語列に存在する発話コマンドを、上記音声に含まれている発話コマンドと認識するコマンド認識部173を備えているからである。
101・・・送受信部
102・・・単語辞書作成部
103・・・音声認識部
104・・・コマンド認識部
105・・・重み記憶部
106・・・個人データ記録部
107・・・追加部
108・・・言語モデル
109・・・音響モデル
110・・・コマンド表記憶部
111・・・共通単語辞書記憶部
112・・・コマンド重み記憶部
113・・・単語辞書一時記憶部
114・・・個人データ記憶部
115・・・入出力部
2−1〜2−n・・・クライアント端末
21・・・音声入力部
22・・・送受信部
23・・・機能呼出し部
24・・・追加部
25・・・コマンド動作対応表記憶部
26・・・記憶装置
27−1〜27−m・・・アプリケーション
3・・・クラウドサーバ
31・・・アプリケーション一覧情報記憶部
170・・・音声認識サーバ
171・・・コマンド重み記憶部
172・・・音声認識部
173・・・コマンド認識部
180・・・クライアント端末
Claims (8)
- クライアント端末と音声認識サーバとを備え、
前記音声認識サーバは、
認識対象となる発話コマンドの表記が記録されたコマンド重み記憶部と、
前記クライアント端末から送られてくる、ユーザが発話した音声の音声データに対して音声認識を行い、前記音声に含まれている単語毎に、その単語に対する候補単語と該候補単語に対する信頼度とを求め、該求めた候補単語の中から信頼度が高い順に複数の候補単語を選択する音声認識部と、
前記コマンド重み記憶部に表記が記録されている発話コマンドであって、その発話コマンドの表記と同一の表記が、前記音声認識部で選択された候補単語を連結した候補単語列に存在する発話コマンドを、前記音声に含まれている発話コマンドと認識するコマンド認識部とを備えることを特徴とする発話コマンド認識システム。 - 請求項1記載の発話コマンド認識システムにおいて、
前記音声認識サーバは、ユーザ毎に、そのユーザのクライアント端末にインストールされているアプリケーションの機能を呼び出すために使用する発話コマンドの表記と重みとが関連付けて記録された個人データ記憶部を備え、且つ、
前記音声認識部は、候補単語の信頼度を求める際、前記個人データ記憶部に記録されている、前記音声データの送信元のユーザのクライアント端末にインストールされているアプリケーションで使用する発話コマンドの重みを考慮することを特徴とする発話コマンド認識システム。 - 請求項2記載の発話コマンド認識システムにおいて、
前記コマンド重み記憶部には、アプリケーション毎に、そのアプリケーションの機能を呼び出すために使用する発話コマンドの表記と重みとが記録され、
前記音声認識部は、候補単語の信頼度を求める際、前記コマンド重み記憶部に記録されている発話コマンドの重みの内、前記音声データの送信元のクライアント端末にインストールされているアプリケーションの機能を呼び出すために使用する発話コマンドの重みも考慮することを特徴とする発話コマンド認識システム。 - 請求項2または3記載の発話コマンド認識システムにおいて、
前記音声認識サーバは、ユーザ毎に、そのユーザのクライアント端末のインストールされている各アプリケーションの使用回数を管理し、該管理している各アプリケーションの使用回数に応じて、前記個人データ記憶部に記録されている発話コマンドの重みを変更する重み変更部を備えることを特徴とする発話コマンド認識システム。 - 請求項3または4記載の発話コマンド認識システムにおいて、
前記コマンド認識部は、認識結果を前記音声データの送信元のクライアント端末へ送信し、
前記クライアント端末は、前記コマンド認識部から送られてきた認識結果に基づいて、自クライアント端末にインストールされているアプリケーションの機能を呼び出す機能呼出し部を備え、
前記音声認識サーバは、
前記機能呼び出し部により機能を呼び出すことができる新アプリケーションを追加する場合、前記新アプリケーションの機能を呼び出すために使用するコマンドの表記と重みとを前記コマンド重み記憶部に記録する追加部と、
前記クライアント端末に前記新アプリケーションがインストールされている場合、前記個人データ記憶部に、前記クライアント端末のユーザに関する情報として、前記新アプリケーションの機能を呼び出すために使用するコマンドの表記と重みとを記録する個人データ記録部と備えたことを特徴とする発話コマンド認識システム。 - 認識対象となる発話コマンドの表記が記録されたコマンド重み記憶部と、
クライアント端末から送られてくる、ユーザが発話した音声の音声データに対して音声認識を行い、前記音声に含まれている単語毎に、その単語に対する候補単語と該候補単語に対する信頼度とを求め、該求めた候補単語の中から信頼度が高い順に複数の候補単語を選択する音声認識部と、
前記コマンド重み記憶部に表記が記録されている発話コマンドであって、その発話コマンドの表記と同一の表記が、前記音声認識部で選択された候補単語を連結した候補単語列に存在する発話コマンドを、前記音声に含まれている発話コマンドと認識するコマンド認識部とを備えることを特徴とする音声認識サーバ。 - 認識対象となる発話コマンドの表記が記録されたコマンド重み記憶部と、音声認識部と、コマンド認識部とを備えたコンピュータが実行する発話コマンド認識方法であって、
前記音声認識武が、前記クライアント端末から送られてくる、ユーザが発話した音声の音声データに対して音声認識を行い、前記音声に含まれている単語毎に、その単語に対する候補単語と該候補単語に対する信頼度とを求め、該求めた候補単語の中から信頼度が高い順に複数の候補単語を選択し、
コマンド認識武が、前記コマンド重み記憶部に表記が記録されている発話コマンドであって、その発話コマンドの表記と同一の表記が、前記音声認識部で選択された候補単語を連結した候補単語列に存在する発話コマンドを、前記音声に含まれている発話コマンドと認識することを特徴とする発話コマンド認識方法。 - 認識対象となる発話コマンドの表記が記録されたコマンド重み記憶部を備えたコンピュータを、
クライアント端末から送られてくる、ユーザが発話した音声の音声データに対して音声認識を行い、前記音声に含まれている単語毎に、その単語に対する候補単語と該候補単語に対する信頼度とを求め、該求めた候補単語の中から信頼度が高い順に複数の候補単語を選択する音声認識部、
前記コマンド重み記憶部に表記が記録されている発話コマンドであって、その発話コマンドの表記と同一の表記が、前記音声認識部で選択された候補単語を連結した候補単語列に存在する発話コマンドを、前記音声に含まれている発話コマンドと認識するコマンド認識部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013043104A JP6236805B2 (ja) | 2013-03-05 | 2013-03-05 | 発話コマンド認識システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013043104A JP6236805B2 (ja) | 2013-03-05 | 2013-03-05 | 発話コマンド認識システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014170185A true JP2014170185A (ja) | 2014-09-18 |
JP6236805B2 JP6236805B2 (ja) | 2017-11-29 |
Family
ID=51692597
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013043104A Active JP6236805B2 (ja) | 2013-03-05 | 2013-03-05 | 発話コマンド認識システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6236805B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017175283A (ja) * | 2016-03-22 | 2017-09-28 | コニカミノルタ株式会社 | 会議システム、テレビ会議装置およびプログラム |
JP2018055022A (ja) * | 2016-09-30 | 2018-04-05 | 株式会社リコー | 音声認識システム、情報処理装置、プログラム |
JP2018511831A (ja) * | 2015-04-22 | 2018-04-26 | グーグル エルエルシー | 開発者音声アクションシステム |
US10134390B2 (en) | 2015-09-23 | 2018-11-20 | Samsung Electronics Co., Ltd. | Electronic device and voice recognition method thereof |
JP2020089641A (ja) * | 2018-12-07 | 2020-06-11 | 株式会社日立製作所 | 音声認識入力装置、音声認識入力プログラム及び医用画像撮像システム |
JP2020518861A (ja) * | 2017-06-29 | 2020-06-25 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | 音声認識方法、装置、デバイス、及び記憶媒体 |
JP2020160387A (ja) * | 2019-03-28 | 2020-10-01 | Necパーソナルコンピュータ株式会社 | 電子機器、制御方法およびプログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003058184A (ja) * | 2001-08-09 | 2003-02-28 | Casio Comput Co Ltd | 機器制御システム、音声認識装置及び方法、並びにプログラム |
JP2004021677A (ja) * | 2002-06-18 | 2004-01-22 | Omron Corp | 情報提供システム、情報提供方法、情報提供プログラム及び情報提供プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2008003474A (ja) * | 2006-06-26 | 2008-01-10 | Funai Electric Co Ltd | 電子機器 |
-
2013
- 2013-03-05 JP JP2013043104A patent/JP6236805B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003058184A (ja) * | 2001-08-09 | 2003-02-28 | Casio Comput Co Ltd | 機器制御システム、音声認識装置及び方法、並びにプログラム |
JP2004021677A (ja) * | 2002-06-18 | 2004-01-22 | Omron Corp | 情報提供システム、情報提供方法、情報提供プログラム及び情報提供プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2008003474A (ja) * | 2006-06-26 | 2008-01-10 | Funai Electric Co Ltd | 電子機器 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018511831A (ja) * | 2015-04-22 | 2018-04-26 | グーグル エルエルシー | 開発者音声アクションシステム |
US10839799B2 (en) | 2015-04-22 | 2020-11-17 | Google Llc | Developer voice actions system |
US11657816B2 (en) | 2015-04-22 | 2023-05-23 | Google Llc | Developer voice actions system |
US10134390B2 (en) | 2015-09-23 | 2018-11-20 | Samsung Electronics Co., Ltd. | Electronic device and voice recognition method thereof |
JP2017175283A (ja) * | 2016-03-22 | 2017-09-28 | コニカミノルタ株式会社 | 会議システム、テレビ会議装置およびプログラム |
JP2018055022A (ja) * | 2016-09-30 | 2018-04-05 | 株式会社リコー | 音声認識システム、情報処理装置、プログラム |
JP2020518861A (ja) * | 2017-06-29 | 2020-06-25 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | 音声認識方法、装置、デバイス、及び記憶媒体 |
JP2020089641A (ja) * | 2018-12-07 | 2020-06-11 | 株式会社日立製作所 | 音声認識入力装置、音声認識入力プログラム及び医用画像撮像システム |
JP7141938B2 (ja) | 2018-12-07 | 2022-09-26 | 富士フイルムヘルスケア株式会社 | 音声認識入力装置、音声認識入力プログラム及び医用画像撮像システム |
JP2020160387A (ja) * | 2019-03-28 | 2020-10-01 | Necパーソナルコンピュータ株式会社 | 電子機器、制御方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6236805B2 (ja) | 2017-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6236805B2 (ja) | 発話コマンド認識システム | |
JP7083270B2 (ja) | 複数のインテリジェントパーソナルアシスタントサービスに対する管理レイヤ | |
JP6588637B2 (ja) | 個別化されたエンティティ発音の学習 | |
JP6272901B2 (ja) | 発話対象の識別 | |
JP5703256B2 (ja) | 単語レベルの変換候補生成に基づく音声認識システム及び方法 | |
US9047868B1 (en) | Language model data collection | |
US9542956B1 (en) | Systems and methods for responding to human spoken audio | |
US20190196779A1 (en) | Intelligent personal assistant interface system | |
JP2016532146A5 (ja) | ||
CN110110319A (zh) | 语音输入的字词级纠正 | |
WO2015089103A1 (en) | Method and system for processing voice messages | |
TW201239652A (en) | Location-based conversational understanding | |
WO2018022085A1 (en) | Identification of preferred communication devices | |
US10395658B2 (en) | Pre-processing partial inputs for accelerating automatic dialog response | |
CN106713111B (zh) | 一种添加好友的处理方法、终端及服务器 | |
US8868419B2 (en) | Generalizing text content summary from speech content | |
CN116075887A (zh) | 使用来自分离的音频输入的语音内容的数据分析和扩张的语音识别 | |
JP2018185561A (ja) | 対話支援システム、対話支援方法、及び対話支援プログラム | |
CN111462727A (zh) | 用于生成语音的方法、装置、电子设备和计算机可读介质 | |
CN110289015B (zh) | 一种音频处理方法、装置、服务器、存储介质及系统 | |
US10997963B1 (en) | Voice based interaction based on context-based directives | |
US11347379B1 (en) | Captions for audio content | |
CN116057625A (zh) | 使用交错音频输入的数据分析和扩张的语音识别 | |
KR20210098250A (ko) | 전자 장치 및 이의 제어 방법 | |
KR102660922B1 (ko) | 복수의 지능형 개인 비서 서비스를 위한 관리 계층 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160205 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170228 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170420 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171003 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171016 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6236805 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |