JP5050175B2 - 音声認識機能付情報処理端末 - Google Patents
音声認識機能付情報処理端末 Download PDFInfo
- Publication number
- JP5050175B2 JP5050175B2 JP2008173551A JP2008173551A JP5050175B2 JP 5050175 B2 JP5050175 B2 JP 5050175B2 JP 2008173551 A JP2008173551 A JP 2008173551A JP 2008173551 A JP2008173551 A JP 2008173551A JP 5050175 B2 JP5050175 B2 JP 5050175B2
- Authority
- JP
- Japan
- Prior art keywords
- unknown word
- voice recognition
- speech recognition
- acoustic feature
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 43
- 230000005540 biological transmission Effects 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 33
- 238000000605 extraction Methods 0.000 claims description 20
- 238000009432 framing Methods 0.000 claims description 17
- 230000006835 compression Effects 0.000 claims description 13
- 238000007906 compression Methods 0.000 claims description 13
- 230000005236 sound signal Effects 0.000 claims description 12
- 230000006837 decompression Effects 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 5
- 238000000034 method Methods 0.000 description 17
- 238000004891 communication Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 13
- 239000013598 vector Substances 0.000 description 12
- 230000001629 suppression Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Description
図1に、本発明の第1の実施の形態に係る音声認識システム10の概略構成を示す。図1を参照して、音声認識システム10は、携帯型情報処理装置の一例であり、利用者の音声30から音響特徴量32を抽出する機能を持つ携帯電話機20と、携帯電話機20が抽出した音響特徴量32を受けると、この音響特徴量32に対して音声認識を行ない、認識結果のテキスト34を携帯電話機20に返信する機能を持つ音声認識サーバ22とを含む。
以上、図1〜図5に示した構成を有する音声認識システム10は以下のように動作する。最初に、利用者が例えばメールプログラムを起動し、メールテキストを音声で入力する場合を想定する。利用者の音声はマイクロフォン50により音声信号に変換され、フレーム化モジュール80によって所定時間おきに所定長でフレーム化される。フレーム化モジュール80が出力するフレーム列は雑音抑圧・特徴量抽出部82に与えられる。
図6に、この実施の形態に係る音声認識システム10による音声認識の例を模式的に示す。図6を参照して、「私の名前は松田です」という音声に対する音声認識処理が携帯電話機20で実行されるものとする。この携帯電話機20がこの音声の符号列を音声認識サーバ22に送信した後、音声認識サーバ22から受信したテキスト200が「私の名前はマツウダです」であったものとする。このテキストでは、本来は「松田」であった部分が、サーバでの音声認識では未知語として認識されている。すると、音声認識サーバ22から送信されてきたテキスト200のうち、「マツウダ」という音節列204の部分には、未知語を示すタグ206と、そのカテゴリとして日本人の「姓」を示すタグ208とが付されている。
20 携帯電話機
22 音声認識サーバ
52 コードブックメモリ
54 音響信号処理部
60 符号記憶部
66 言語モデル記憶部
68 音響モデル記憶部
70 未知語処理部
90 未知語切出処理部
92 未知語認識処理部
94 未知語入替処理部
96 判定部
Claims (8)
- 音声信号から所定の音響特徴量を抽出して記憶するための特徴量記憶手段と、
前記所定の音響特徴量を予め定められた音声認識サーバに送信するための特徴量送信手段と、
前記サーバから前記所定の音響特徴量に対する音声認識の結果のテキストを受信するための受信手段と、
音声認識のための統計的音響モデルと、音声認識のための、カテゴリ別に編成された複数個のカテゴリ別言語モデルとを記憶するためのカテゴリ別モデル記憶手段と、
前記受信手段が受信した前記テキスト中の、未知語のタグ付けがされた区間に対応する音響特徴量を前記特徴量記憶手段から読出し、前記モデル記憶手段に記憶された前記統計的音響モデル、及び前記カテゴリ別言語モデルの内で前記未知語のカテゴリに対応する言語モデル、を使用して音声認識を行なうための音声認識手段と、
前記受信手段が受信した前記テキスト中の前記未知語のタグ付けがされた区間を、前記音声認識手段の出力で置換するための置換手段とを含む、音声認識機能付情報処理端末。 - 前記受信手段が受信した前記テキスト中に未知語のタグ付けがされた区間があるか否かを判定するための判定手段と、
前記判定手段の判定結果に応答して、前記受信手段が受信した前記テキストと、前記置換手段によって前記未知語が置換された前記テキストとを選択的に出力するための選択手段とをさらに含む、請求項1に記載の音声認識機能付情報処理端末。 - 前記特徴量記憶手段は、
前記音声信号を所定時間ごとに所定長のフレームにフレーム化するためのフレーム化手段と、
前記フレーム化手段によりフレーム化されたフレームの各々の音声信号から、所定の複数個の音響特徴量を抽出するための特徴量抽出手段と、
前記フレーム化手段によりフレーム化されたフレームの各々に対して前記特徴量抽出手段により抽出された前記所定の複数個の音響特徴量を所定の圧縮アルゴリズムにより圧縮するための圧縮手段と、
前記フレーム化手段によりフレーム化されたフレームの各々に対して、前記圧縮手段により圧縮された音響特徴量を記憶するための記憶手段とを含み、
前記特徴量送信手段は、前記圧縮手段により圧縮された前記音響特徴量を送信するための手段を含む、請求項1又は請求項2に記載の音声認識機能付情報処理端末。 - 前記音声認識手段は、
前記受信手段が受信した前記テキスト中の、未知語のタグ付けがされた区間に対応するフレーム列の各々の音響特徴量を前記特徴量記憶手段から読出し、前記所定の圧縮アルゴリズムに対応する伸長アルゴリズムを用いて伸長するための伸長手段と、
前記伸長手段により伸長されたフレーム列の前記複数個の音響特徴量を入力として、前記モデル記憶手段に記憶された前記統計的音響モデル、及び前記カテゴリ別言語モデルの内で前記未知語のカテゴリに対応する言語モデルを使用して音声認識を行なうための手段とを含む、請求項3に記載の音声認識機能付情報処理端末。 - 前記圧縮手段は、
前記複数個の所定の音響特徴量から予め組合された2つずつの音響特徴量の組合せの各々に対して予め準備されたコードブックを記憶するためのコードブック記憶手段と、
前記フレーム化手段によりフレーム化されたフレームの各々について、前記複数個の所定の音響特徴量から予め組合された2つずつの音響特徴量の組合せの各々を、前記コードブックのうちで対応するものを用いて符号化するための符号化手段とを含み、
前記送信するための手段は、前記フレーム化手段によりフレーム化されたフレームの各々について、前記符号化手段により得られた符号からなる符号列を送信するための手段を含む、請求項3又は請求項4に記載の音声認識機能付情報処理端末。 - 前記複数個の所定の音響特徴量は、各フレームの音声信号の第0次から第12次のMFCCパラメータと、パワーとを含む、請求項1〜請求項5のいずれかに記載の音声認識機能付情報処理端末。
- 前記音声認識機能付情報処理端末で実行可能なアプリケーションプログラムにより、前記音声認識機能付情報処理端末の使用者に関連して集積された情報を記憶するための関連情報記憶手段と、
前記関連情報記憶手段に記憶された前記情報を、カテゴリに分類するための分類手段と、
前記分類手段により分類されたカテゴリごとに統計的言語モデルを作成することにより、前記複数個のカテゴリ別言語モデルを作成するための言語モデル作成手段とをさらに含む、請求項1〜請求項6のいずれかに記載の音声認識機能付情報処理端末。 - 前記未知語のタグ付けがされた区間は、未知語のタグ付けがされた音節列を含む、請求項1〜請求項7のいずれかに記載の音声認識機能付情報処理端末。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008173551A JP5050175B2 (ja) | 2008-07-02 | 2008-07-02 | 音声認識機能付情報処理端末 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008173551A JP5050175B2 (ja) | 2008-07-02 | 2008-07-02 | 音声認識機能付情報処理端末 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010014885A JP2010014885A (ja) | 2010-01-21 |
JP5050175B2 true JP5050175B2 (ja) | 2012-10-17 |
Family
ID=41701062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008173551A Active JP5050175B2 (ja) | 2008-07-02 | 2008-07-02 | 音声認識機能付情報処理端末 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5050175B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5231484B2 (ja) * | 2010-05-19 | 2013-07-10 | ヤフー株式会社 | 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置 |
JP5480760B2 (ja) * | 2010-09-15 | 2014-04-23 | 株式会社Nttドコモ | 端末装置、音声認識方法および音声認識プログラム |
KR101961139B1 (ko) * | 2012-06-28 | 2019-03-25 | 엘지전자 주식회사 | 이동 단말기 및 그것의 음성 인식 방법 |
KR102342571B1 (ko) * | 2014-11-19 | 2021-12-22 | 에스케이텔레콤 주식회사 | 다중 음성인식모듈을 적용한 음성 인식 방법 및 이를 위한 음성인식장치 |
CN113921016A (zh) * | 2021-10-15 | 2022-01-11 | 阿波罗智联(北京)科技有限公司 | 语音处理方法、装置、电子设备以及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH088502B2 (ja) * | 1990-06-18 | 1996-01-29 | 日本電信電話株式会社 | ベクトル量子化法 |
JPH04188200A (ja) * | 1990-11-22 | 1992-07-06 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JP2001175286A (ja) * | 1999-12-20 | 2001-06-29 | Mitsubishi Electric Corp | ベクトル量子化装置 |
JP2003186494A (ja) * | 2001-12-17 | 2003-07-04 | Sony Corp | 音声認識装置および方法、記録媒体、並びにプログラム |
JP2004309523A (ja) * | 2003-04-01 | 2004-11-04 | Sony Corp | ロボット装置の動作パターン共有システム、ロボット装置の動作パターン共有方法、及びロボット装置 |
JP4705023B2 (ja) * | 2004-06-10 | 2011-06-22 | パナソニック株式会社 | 音声認識装置、音声認識方法、及びプログラム |
JP4867375B2 (ja) * | 2006-02-07 | 2012-02-01 | 日本電気株式会社 | 辞書作成システム、辞書サーバ、携帯端末、辞書作成方法、および、辞書作成プログラム |
JP2008009153A (ja) * | 2006-06-29 | 2008-01-17 | Xanavi Informatics Corp | 音声対話システム |
-
2008
- 2008-07-02 JP JP2008173551A patent/JP5050175B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010014885A (ja) | 2010-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9905227B2 (en) | Speech recognition system, request device, method, program, and recording medium, using a mapping on phonemes to disable perception of selected content | |
EP2252995B1 (en) | Method and apparatus for voice searching for stored content using uniterm discovery | |
US8019604B2 (en) | Method and apparatus for uniterm discovery and voice-to-voice search on mobile device | |
JP3672800B2 (ja) | 音声入力通信システム | |
US20080154600A1 (en) | System, Method, Apparatus and Computer Program Product for Providing Dynamic Vocabulary Prediction for Speech Recognition | |
CN107104994B (zh) | 语音识别方法、电子装置及语音识别系统 | |
US20060149551A1 (en) | Mobile dictation correction user interface | |
CN110097870B (zh) | 语音处理方法、装置、设备和存储介质 | |
US20070027693A1 (en) | Voice recognition system and method | |
US7471775B2 (en) | Method and apparatus for generating and updating a voice tag | |
KR20090085673A (ko) | 음성 인식을 이용한 콘텐츠 선택 | |
CN101636732A (zh) | 用于语言独立语音索引和搜索的方法和装置 | |
JP4930379B2 (ja) | 類似文検索方法、類似文検索システム及び類似文検索用プログラム | |
CN102543071A (zh) | 用于移动设备的语音识别系统和方法 | |
JP2002091477A (ja) | 音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
CN101681365A (zh) | 用于分布式语音搜索的方法和装置 | |
CN112786008A (zh) | 语音合成方法、装置、可读介质及电子设备 | |
JP5050175B2 (ja) | 音声認識機能付情報処理端末 | |
JP5558284B2 (ja) | 音声認識システム、音声認識方法、および音声認識プログラム | |
EP1899955B1 (en) | Speech dialog method and system | |
CN113724698B (zh) | 语音识别模型的训练方法、装置、设备及存储介质 | |
US20020077814A1 (en) | Voice recognition system method and apparatus | |
JP4978982B2 (ja) | 携帯情報端末、文字入力支援プログラム及び方法 | |
JP2019095606A (ja) | 学習データ生成方法、学習データ生成プログラム、サーバ | |
JP2003202890A (ja) | 音声認識装置及びその方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110526 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120405 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120522 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120620 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5050175 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150803 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |