JP4902617B2 - 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム - Google Patents
音声認識システム、音声認識方法、音声認識クライアントおよびプログラム Download PDFInfo
- Publication number
- JP4902617B2 JP4902617B2 JP2008252512A JP2008252512A JP4902617B2 JP 4902617 B2 JP4902617 B2 JP 4902617B2 JP 2008252512 A JP2008252512 A JP 2008252512A JP 2008252512 A JP2008252512 A JP 2008252512A JP 4902617 B2 JP4902617 B2 JP 4902617B2
- Authority
- JP
- Japan
- Prior art keywords
- server
- voice
- voice recognition
- client
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 18
- 230000005540 biological transmission Effects 0.000 claims description 49
- 238000000605 extraction Methods 0.000 claims description 17
- 230000005236 sound signal Effects 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 description 20
- 238000004891 communication Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 229920000742 Cotton Polymers 0.000 description 1
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Description
図1は、本発明の実施の形態1に係る音声認識システムの構成を示すブロック図である。図1に示すように、音声認識システムは、クライアント1と、サーバ3から構成される。クライアント1とサーバ3は、図示しないネットワークを介して通信する。図1ではクライアント1を代表して1台で示す。サーバ3に複数のクライアント1が通信可能である。
図5は、品詞情報を用いる場合の認識結果選択の例を示す。図5の音声認識対象の発話は「アノヒトガケンジデス。」である。サーバ3からは、「ケンジ」について普通名詞の「検事」が音声認識結果として送信されたことが示されている。
図6は、未知語の情報を用いる場合の認識結果選択の例を示す。未知語とは、音声認識部33に登録されている単語に、音声に対応する単語がないことをいう。音声認識部33は、音声認識の結果、未知語と判断した場合に、その単語が備えるであろう品詞の情報を属性として認識する場合がある。また、未知語は音素の列が認識できていることが多く、その音素に対応する文字列が漢字を含むか、カタカナを含むかという情報を属性として認識できる場合がある。音声認識部33は、それらの未知語の属性をクライアント1に送信する。
図7は、実施の形態2に係る音声認識システムの構成を示すブロック図である。実施の形態2では、クライアント1に結果判定部18を備える。
図9は、実施の形態3に係る音声認識システムの構成を示すブロック図である。実施の形態3ではさらに、クライアント1に特徴量抽出部19を備える。図1または図7の音声認識部14に含まれる特徴量抽出を分離して示したものと考えることができる。
3 サーバ
10 制御部
11 音声入力部
12 送信部
13 受信部
14 音声認識部
15 表示部
16 入力部
17 選択部
18 結果判定部
19 特徴量抽出部
20 内部バス
21 マイク
22 表示装置
23 入力装置
30 内部バス
31 制御部
32 受信部
33 音声認識部
34 送信部
40 内部バス
41 制御部
42 主記憶部
43 外部記憶部
44 操作部
45 表示部
46 入出力部
47 送受信部
50 制御プログラム
Claims (16)
- サーバとクライアントから構成される音声認識システムであって、
前記クライアントは、
音声信号を入力する音声入力手段と、
前記音声信号を示すデータをサーバに送信する送信手段と、
を備え、
前記サーバは、
前記クライアントから音声信号を示すデータを受信するサーバ受信手段と、
前記サーバ受信手段で受信したデータから音声認識するサーバ音声認識手段と、
前記サーバ音声認識手段で音声認識した結果を前記クライアントに送信するサーバ送信手段と、
を備え、
前記クライアントはさらに、
前記サーバから前記音声認識した結果を受信する受信手段と、
前記受信手段で前記サーバから受信した前記音声認識した結果を参照して、前記受信した音声認識結果に対応する前記送信した音声信号を示すデータについて、音声認識する音声認識手段と、
前記サーバから受信した音声認識結果と、前記音声認識手段で音声認識した結果と、から認識結果を選択する選択手段と、
を備える、
ことを特徴とする音声認識システム。 - 前記サーバ音声認識手段は、前記音声信号を示すデータから、文節区切り位置および文節の属性を表すデータを含む文節情報を抽出し、
前記サーバ送信手段は、前記文節情報を前記クライアントに送信し、
前記クライアントの音声認識手段は、前記サーバから受信した文節情報を参照して、前記送信した音声信号を示すデータについて、音声認識する
ことを特徴とする請求項1に記載の音声認識システム。 - 前記文節情報は、文節に含まれる単語の品詞を表すデータを含み、
前記クライアントの音声認識手段は、前記サーバから受信した文節情報の品詞を表すデータを参照して、前記送信した音声信号を示すデータについて、音声認識する、
ことを特徴とする請求項2に記載の音声認識システム。 - 前記サーバ音声認識手段は、前記音声信号を示すデータから音声認識した結果のうち、未知語の属性を推定し、
前記サーバ送信手段は、前記サーバ音声認識手段で推定した未知語の属性を前記クライアントに送信し、
前記クライアントの音声認識手段は、前記サーバから受信した前記未知語の属性を参照して、前記送信した音声信号を示すデータについて音声認識する、
ことを特徴とする請求項1ないし3のいずれか1項に記載の音声認識システム。 - 前記クライアントの音声認識手段は、前記サーバから受信した音声認識結果が所定の条件に適合する場合に音声認識を行う、ことを特徴とする請求項1ないし4のいずれか1項に記載の音声認識システム。
- 前記クライアントは、
前記サーバから受信した音声認識結果および前記音声認識手段で音声認識した結果が1つの語について複数の候補を有する場合に、その複数の候補のうち少なくとも2つ以上の候補を表示する表示手段と、
前記表示手段で表示した候補のうち、少なくともいずれかを選択する指令を受け付ける入力手段と、
を備え、
前記選択手段は、前記入力手段で入力した前記選択する指令に基づいて、前記認識結果を選択する、
ことを特徴とする請求項1ないし5のいずれか1項に記載の音声認識システム。 - 前記クライアントは、前記入力手段で入力した音声の特徴パラメータを抽出する抽出手段を備え、
前記送信手段は、前記抽出手段で抽出した特徴パラメータを前記サーバに伝送し、
前記サーバ音声認識手段は、前記クライアントから受信した特徴パラメータを用いて音声認識する、
ことを特徴とする請求項1ないし6のいずれか1項に記載の音声認識システム。 - サーバとクライアントから構成される音声認識システムにおける音声認識方法であって、
前記クライアントで、音声信号を入力する音声入力ステップと、
前記音声信号を示すデータをサーバに送信する送信ステップと、
前記サーバで、前記クライアントから音声信号を示すデータを受信するサーバ受信ステップと、
前記サーバ受信ステップで受信したデータから音声認識するサーバ音声認識ステップと、
前記サーバ音声認識ステップで音声認識した結果を前記クライアントに送信するサーバ送信ステップと、
前記クライアントで、前記サーバから前記音声認識した結果を受信する受信ステップと、
前記受信ステップで受信した音声認識結果を参照して、前記送信した音声信号を示すデータについて、音声認識する音声認識ステップと、
前記サーバから受信した音声認識結果と、前記音声認識ステップで音声認識した結果と、から認識結果を選択する選択ステップと、
を備えることを特徴とする音声認識方法。 - 音声信号を入力する音声入力手段と、
前記音声信号を示すデータをサーバに送信する送信手段と、
前記サーバから音声認識した結果を受信する受信手段と、
前記受信手段で受信した音声認識結果を参照して、前記送信した音声信号を示すデータについて、音声認識する音声認識手段と、
前記サーバから受信した音声認識結果と、前記音声認識手段で音声認識した結果と、から認識結果を選択する選択手段と、
を備えることを特徴とする音声認識クライアント。 - 前記受信手段は、前記サーバから、文節区切り位置および文節の属性を表すデータを含む文節情報を受信し、
前記音声認識手段は、前記受信手段で受信した文節情報を参照して、前記送信した音声信号を示すデータについて、音声認識する、
ことを特徴とする請求項9に記載の音声認識クライアント。 - 前記文節情報は、前記文節に含まれる単語の品詞を表すデータを含み、
前記音声認識手段は、前記受信した文節情報の品詞を表すデータを参照して、前記送信した音声信号を示すデータについて、音声認識する、
ことを特徴とする請求項10に記載の音声認識クライアント。 - 前記受信手段は、前記サーバから受信した音声認識結果のうちの未知語の属性を受信し、
前記音声認識手段は、前記受信手段で受信した前記未知語の属性を参照して、前記送信した音声信号を示すデータについて、音声認識する
ことを特徴とする請求項9ないし11のいずれか1項に記載の音声認識クライアント。 - 前記音声認識手段は、前記サーバから受信した音声認識結果が所定の条件に適合する場合に、音声認識を行うことを特徴とする請求項9ないし12のいずれか1項に記載の音声認識クライアント。
- 前記サーバから受信した音声認識結果および前記音声認識手段で音声認識した結果が1つの語について複数の候補を有する場合に、その複数の候補のうち少なくとも2つ以上の候補を表示する表示手段と、
前記表示手段で表示した候補のうち、少なくともいずれかを選択する指令を受け付ける入力手段と、
を備え、
前記選択手段は、前記入力手段で入力した前記選択する指令に基づいて、前記認識結果を選択する、
ことを特徴とする請求項9ないし13のいずれか1項に記載の音声認識クライアント。 - 前記入力手段で入力した音声の特徴パラメータを抽出する抽出手段を備え、
前記送信手段は、前記抽出手段で抽出した特徴パラメータを前記サーバに伝送する、
ことを特徴とする請求項9ないし14のいずれか1項に記載の音声認識クライアント。 - コンピュータを、
音声信号を入力する音声入力手段と、
前記音声信号を示すデータをサーバに送信する送信手段と、
前記サーバから音声認識した結果を受信する受信手段と、
前記受信手段で受信した音声認識結果を参照して、前記送信した音声信号を示すデータについて、音声認識する音声認識手段と、
前記サーバから受信した音声認識結果と、前記音声認識手段で音声認識した結果と、から認識結果を選択する選択手段
として機能させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008252512A JP4902617B2 (ja) | 2008-09-30 | 2008-09-30 | 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008252512A JP4902617B2 (ja) | 2008-09-30 | 2008-09-30 | 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010085536A JP2010085536A (ja) | 2010-04-15 |
JP4902617B2 true JP4902617B2 (ja) | 2012-03-21 |
Family
ID=42249575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008252512A Active JP4902617B2 (ja) | 2008-09-30 | 2008-09-30 | 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4902617B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9761228B2 (en) | 2013-02-25 | 2017-09-12 | Mitsubishi Electric Corporation | Voice recognition system and voice recognition device |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5558284B2 (ja) * | 2010-09-15 | 2014-07-23 | 株式会社Nttドコモ | 音声認識システム、音声認識方法、および音声認識プログラム |
JP5480760B2 (ja) * | 2010-09-15 | 2014-04-23 | 株式会社Nttドコモ | 端末装置、音声認識方法および音声認識プログラム |
KR101208166B1 (ko) | 2010-12-16 | 2012-12-04 | 엔에이치엔(주) | 온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법 |
JP5771002B2 (ja) * | 2010-12-22 | 2015-08-26 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識装置を搭載したテレビ受像機 |
JP5658641B2 (ja) * | 2011-09-15 | 2015-01-28 | 株式会社Nttドコモ | 端末装置、音声認識プログラム、音声認識方法および音声認識システム |
JP5821639B2 (ja) | 2012-01-05 | 2015-11-24 | 株式会社デンソー | 音声認識装置 |
JP6016134B2 (ja) | 2012-02-27 | 2016-10-26 | 日本電気株式会社 | 音声入力装置、音声入力方法及びプログラム |
JP5957269B2 (ja) | 2012-04-09 | 2016-07-27 | クラリオン株式会社 | 音声認識サーバ統合装置および音声認識サーバ統合方法 |
JP5868544B2 (ja) * | 2013-03-06 | 2016-02-24 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
JP5753869B2 (ja) * | 2013-03-26 | 2015-07-22 | 富士ソフト株式会社 | 音声認識端末およびコンピュータ端末を用いる音声認識方法 |
CN105556594B (zh) * | 2013-12-26 | 2019-05-17 | 松下知识产权经营株式会社 | 声音识别处理装置、声音识别处理方法以及显示装置 |
DE102014200570A1 (de) * | 2014-01-15 | 2015-07-16 | Bayerische Motoren Werke Aktiengesellschaft | Verfahren und System zur Erzeugung eines Steuerungsbefehls |
US20170194000A1 (en) * | 2014-07-23 | 2017-07-06 | Mitsubishi Electric Corporation | Speech recognition device and speech recognition method |
JP6572969B2 (ja) * | 2015-03-30 | 2019-09-11 | 富士通クライアントコンピューティング株式会社 | 音声認識装置、音声認識システム、及び、プログラム |
JP6869835B2 (ja) * | 2017-07-06 | 2021-05-12 | フォルシアクラリオン・エレクトロニクス株式会社 | 音声認識システム、端末装置、及び辞書管理方法 |
WO2020065840A1 (ja) * | 2018-09-27 | 2020-04-02 | 株式会社オプティム | コンピュータシステム、音声認識方法及びプログラム |
JP6807586B1 (ja) * | 2020-01-30 | 2021-01-06 | ベルフェイス株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP6824547B1 (ja) * | 2020-06-22 | 2021-02-03 | 江崎 徹 | アクティブラーニングシステム及びアクティブラーニングプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003241796A (ja) * | 2002-02-22 | 2003-08-29 | Canon Inc | 音声認識システムおよびその制御方法 |
JP2003295893A (ja) * | 2002-04-01 | 2003-10-15 | Omron Corp | 音声認識システム、装置、音声認識方法、音声認識プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2004325688A (ja) * | 2003-04-23 | 2004-11-18 | Toyota Motor Corp | 音声認識システム |
JP4554285B2 (ja) * | 2004-06-18 | 2010-09-29 | トヨタ自動車株式会社 | 音声認識システム、音声認識方法、及び音声認識プログラム |
-
2008
- 2008-09-30 JP JP2008252512A patent/JP4902617B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9761228B2 (en) | 2013-02-25 | 2017-09-12 | Mitsubishi Electric Corporation | Voice recognition system and voice recognition device |
Also Published As
Publication number | Publication date |
---|---|
JP2010085536A (ja) | 2010-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4902617B2 (ja) | 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム | |
US11727914B2 (en) | Intent recognition and emotional text-to-speech learning | |
US7848926B2 (en) | System, method, and program for correcting misrecognized spoken words by selecting appropriate correction word from one or more competitive words | |
US7818166B2 (en) | Method and apparatus for intention based communications for mobile communication devices | |
US10089974B2 (en) | Speech recognition and text-to-speech learning system | |
JP5706384B2 (ja) | 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム | |
US8423351B2 (en) | Speech correction for typed input | |
JP5119055B2 (ja) | 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム | |
JP5062171B2 (ja) | 音声認識システム、音声認識方法および音声認識用プログラム | |
WO2008084476A2 (en) | Vowel recognition system and method in speech to text applications | |
US11532301B1 (en) | Natural language processing | |
JP2001188558A (ja) | 音声認識装置、方法、コンピュータ・システム及び記憶媒体 | |
US11295732B2 (en) | Dynamic interpolation for hybrid language models | |
WO2018043138A1 (ja) | 情報処理装置および情報処理方法、並びにプログラム | |
EP4295357A1 (en) | Mixture model attention for flexible streaming and non-streaming automatic speech recognition | |
EP4295355A1 (en) | Efficient streaming non-recurrent on-device end-to-end model | |
US20060247921A1 (en) | Speech dialog method and system | |
CN111414748A (zh) | 话务数据处理方法及装置 | |
JP3526549B2 (ja) | 音声認識装置、方法及び記録媒体 | |
JP2015143866A (ja) | 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム | |
JP2001013992A (ja) | 音声理解装置 | |
CN113506561B (zh) | 文本拼音的转换方法及装置、存储介质及电子设备 | |
KR20220070647A (ko) | 언어, 청각 장애인 및 외국인 상호 대화 시스템 | |
KR20240068723A (ko) | Rnn-T로 구현된 자동 음성 인식 시스템에서 음향과 텍스트 표현의 융합 | |
JP6179509B2 (ja) | 言語モデル生成装置、音声認識装置、言語モデル生成方法およびプログラム記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101021 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111125 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111206 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111228 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4902617 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150113 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |