JP5570675B2 - 音声合成装置 - Google Patents
音声合成装置 Download PDFInfo
- Publication number
- JP5570675B2 JP5570675B2 JP2014513310A JP2014513310A JP5570675B2 JP 5570675 B2 JP5570675 B2 JP 5570675B2 JP 2014513310 A JP2014513310 A JP 2014513310A JP 2014513310 A JP2014513310 A JP 2014513310A JP 5570675 B2 JP5570675 B2 JP 5570675B2
- Authority
- JP
- Japan
- Prior art keywords
- abbreviation
- speech
- vocabulary
- unit
- expansion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012937 correction Methods 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 17
- 239000000284 extract Substances 0.000 claims description 5
- 238000000034 method Methods 0.000 description 45
- 238000012545 processing Methods 0.000 description 14
- 230000015572 biosynthetic process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000003786 synthesis reaction Methods 0.000 description 7
- 230000015654 memory Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 230000000877 morphologic effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 108090000237 interleukin-24 Proteins 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Navigation (AREA)
- Document Processing Apparatus (AREA)
- User Interface Of Digital Computer (AREA)
Description
しかし、あらゆる文章を適切に読み上げることが可能であるとは言い難い。その一例として、文章中の施設名称、住所名、道路名等(以下、「施設名称等」と呼ぶ。)に含まれる「Dr」や「St」等のように、複数の読み方を有する省略語の読み上げが挙げられる。
例えば、「St」は「Street」と「Saint」の二通りの読み方があるため、「Berkeley St」という道路名の場合、「St」が「Street」であるか「Saint」であるか判断することができず、適切に読み上げることができないという問題があった。
この場合には、例えば特許文献1に記載されているような方法(第2の方法)を用いて、例えば「MARTINE DR HOSPITAL」に対応する「MARTINE DOCTOR HOSPITAL」を予め定義しておくことにより対応することができるが、この方法では、予め多くの定義を行っておく必要があるため、多くのメモリが必要となる、という課題があった。
この場合には、搭乗者が自身にとって適切な読み方を登録できるようにすることで対応することができるが、前記「CT 365」のような施設名称等が出現する度に登録作業を行う必要があるため煩わしい、という課題があった。
この発明は、入力された文字列から合成音声を生成する音声合成装置において、その音声合成装置が起動されている場合は常時、車両内の搭乗者等の発話内容を認識し、当該発話内容に含まれる施設名称等を用いて、施設名称等に含まれる省略語に対応する省略前の語を特定するものである。なお、以下の実施の形態では、この発明の音声合成装置を、車両等の移動体に搭載されるカーナビゲーションシステムに適用した場合を例に挙げて説明する。
図1は、この発明の実施の形態1による音声合成装置の一例を示すブロック図である。この音声合成装置は、音声取得部1と、音声認識部2と、省略語展開用語彙抽出部3と、省略語展開規則記憶部4と、省略語未展開語彙記憶部5と、省略語展開部6と、音声合成部7とを備えている。また、図示は省略したが、この音声合成装置は、キーやタッチパネル等による入力信号を取得する入力部も備えている。
ここで、「省略語」とは、例えば「Doctor」や「Drive」を省略した「Dr」・「DR」、「Street」や「Saint」を省略した「St」・「ST」等の語を意味するものとする。また、「展開」とは、省略語の省略前の語を特定すること、「展開語」とは、省略語の省略前の語、を意味するものとする。そして、「省略語展開用語彙」とは、後述する省略語の展開の際に使用される語彙であり、例えば、施設名称、住所名、道路名等の施設名称等である。これらの用語の意味については、以下の実施の形態においても同様とする。
なお、省略語展開用語彙抽出部3は、施設名称等の発音情報や位置情報等が記憶されたデータベース(図示せず)を参照しながら形態素解析を行い、音声認識結果の文字列から施設名称等の抽出を行う。
まず、図2(a)は、省略語およびその省略語の施設名称等における位置と、当該省略語に対する展開語が、当該省略語に対応付けて記憶されている規則を示す。例えば、省略語「DR」と当該省略語の位置「語頭」に対して「Doctor」が対応付けられており、省略語「DR」と当該省略語の位置「語尾」に対して、「Drive」が対応付けられている。
なお、「位置」の情報については図2(a)に示すように「語頭」や「語尾」という情報に限られず、例えば、語頭を「0」、語尾を「1」というように数値が格納されていてもよい。
また、図2(b)については、後述する省略語展開部6の説明の際に合わせて説明する。
すなわち、省略語展開規則記憶部4には、予め登録されている図2(a)に示すような基本的な規則が記憶されており、当初は記憶されていなくて展開できなかった省略語(省略語未展開語彙記憶部5に格納されていた省略語)を展開する図2(b)に示すような規則が、省略語展開部6により追加で登録(記憶)されていくものである。
図3は、入力されたテキストから合成音声を生成する際に、その前処理として実施される、省略語を展開する処理を示したフローチャートである。なお、ここでは、施設名称等に含まれる省略語の展開を例に説明する。
例えば、「I will go to PARK AVE.」という文字列が入力されると、道路名称である「PARK AVE」に、省略語展開規則記憶部4に定義されている省略語「AVE」が含まれているので(ステップST01のYESの場合)、音声合成部7は、省略語展開規則記憶部4を参照して「AVE」に対応する展開語「Avenue」を取得し(ステップST02、ステップST03のYESの場合)、「AVE」を「Avenue」に置換する(ステップST04)。
その他、「I will go to CT365.」という文字列が入力された場合も同様に、「CT365」が省略語未展開語彙記憶部5に登録される。
まず、音声取得部1は、マイク等により集音された車内の音声をA/D変換して、例えばPCM(Pulse Code Modulation)形式で取得する。(ステップST11)。ここで、車内の音声とは搭乗者が発話した音声、TVやラジオから出力される例えば交通情報の音声等を含むものとする。
例えば、車内で「Did you go to the hospital yesterday?」「Yes. I went to MARTINE DOCTOR HOSPITAL.」という会話がなされているとすると、音声取得部1がその音声を取得し(ステップST11)、音声認識部2は音声取得部1により取得された音声データを認識し、認識結果を文字列で出力する(ステップST12)。
この場合、まず、音声取得部1により取得された音声データを、通信部を介してサーバの音声認識部2に送信する。音声認識部2は、送信された音声データを認識し、省略語展開用語彙抽出部3は、認識結果から施設名称等を抽出する。その後、抽出された施設名称等を音声データの送信元へ送信する。音声合成装置は該施設名称等を受信し、受信した施設名称等を用いて以後の省略語の展開処理を行う。
以上の構成とすることで、サーバ側の高い処理能力や豊富なメモリを利用することができるため、迅速かつ高精度な認識、迅速かつ正確な施設名称等の抽出、音声合成装置の処理負荷の低減等を図ることができる。
以上の構成とすることで、多数の認識結果から抽出された施設名称等を利用することができるため、短期間で省略語未展開語を展開することができる。
図5は、この発明の実施の形態2による音声合成装置の一例を示すブロック図である。なお、実施の形態1で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態2では、実施の形態1と比べると、訂正語彙取得部8と訂正語彙登録部9をさらに備えている。また、図示は省略したが、この音声合成装置は、キーやタッチパネル等による入力信号を取得する入力部も備えている。
図7は、搭乗者によりタッチパネル上に表示されている施設名称等が選択(指示)された場合に、当該施設名称等を省略語未展開語彙記憶部5に登録する処理を示したフローチャートである。なお、ここでも、施設名称等に含まれる省略語の展開を例に説明する。
まず、音声合成部7に文字列が入力されると、音声合成部7は、公知の形態素解析処理等によって、入力された文字列を合成音声する単位に分割した後、省略語展開規則記憶部4を参照して、当該分割された文字列に省略語が含まれているか否か判定する(ステップST31)。ここでは、一例として、当該判定がなされる対象が施設名称等であるとして以降の動作を説明する。省略語が含まれていない場合(ステップST31のNOの場合)は、処理を終了する。
ここで、図9に示すステップST41〜46の処理については、実施の形態1における図4に示したステップST11〜ST16の処理と同一であるため、説明を省略する。
例えば、「I will go to CT 365.」という文字列が入力され、音声合成部7が省略語展開規則記憶部4に登録されている図6(a)の規則を参照することにより、「CT 365」を「Court 365」と展開し合成音声を生成した場合を例に説明する。
ここで、搭乗者が「CT 365」を「Connecticut 365」と読み上げられることを想定しており、誤って読み上げられたタッチパネル上の「CT 365」が、搭乗者によって選択(指示)されたとする。その結果、訂正語彙取得部8が、省略語展開規則記憶部4の規則(図5(a)の2行目)を参照し、「CT 365」が施設名称等であり、かつ、省略語が含まれていると判断し(ステップST21のYESの場合)、この「Court 365」を取得する(ステップST22)。
これと同時に、訂正語彙登録部9により、省略語未展開語記憶部5に「CT365」が登録される(ステップST24)。
これによって、次回以降「I will go to CT 365.」は搭乗者が所望する「I will go to Connecticut 365.」と読み上げられる。
なお、使用・再登録許可フラグが「False」と設定された規則は、同一の省略語に対する新しい規則が追加された場合に、削除することとしてもよい。
このようにすることで、使用されない規則によりメモリ使用量が増加することを防ぐことができる。
Claims (3)
- 入力された文字列から合成音声を生成する音声合成装置において、
入力された音声を検知して取得する音声取得部と、
前記音声合成装置が起動されている場合は常時、前記音声取得部により取得された音声データを認識する音声認識部と、
前記音声認識部により出力された認識結果文字列から省略語展開用語彙を抽出する省略語展開用語彙抽出部と、
省略語の展開規則を記憶した省略語展開規則記憶部と、
前記入力された文字列から合成音声を生成するとともに、当該合成音声を生成する際に、前記省略語展開規則記憶部を参照することにより、前記入力された文字列に含まれる省略語を展開する音声合成部と、
前記音声合成部による省略語の展開に失敗した語彙を登録する省略語未展開語彙記憶部と、
前記省略語展開規則記憶部を参照することにより、前記省略語展開用語彙抽出部により抽出された省略語展開用語彙を用いて、前記省略語未展開語彙記憶部に登録されている省略語未展開語彙に含まれる省略語を展開する省略語展開部とを備える
ことを特徴とする音声合成装置。 - 訂正指示を受け付ける訂正指示部と、
前記訂正指示部により受け付けられた指示に基づき訂正語彙を取得する訂正語彙取得部と、
前記訂正語彙取得部により取得された訂正語彙を前記省略語未展開語彙記憶部に登録する訂正語彙登録部とをさらに備える
ことを特徴とする請求項1記載の音声合成装置。 - 前記音声合成装置は移動体に搭載されており、
前記音声取得部に入力される音声は、前記移動体の搭乗者の発話、ラジオ音声、テレビ音声であることを特徴とする請求項1記載の音声合成装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2012/002972 WO2013164870A1 (ja) | 2012-05-02 | 2012-05-02 | 音声合成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP5570675B2 true JP5570675B2 (ja) | 2014-08-13 |
JPWO2013164870A1 JPWO2013164870A1 (ja) | 2015-12-24 |
Family
ID=49514281
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014513310A Expired - Fee Related JP5570675B2 (ja) | 2012-05-02 | 2012-05-02 | 音声合成装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20150019224A1 (ja) |
JP (1) | JP5570675B2 (ja) |
DE (1) | DE112012006308B4 (ja) |
WO (1) | WO2013164870A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10152532B2 (en) * | 2014-08-07 | 2018-12-11 | AT&T Interwise Ltd. | Method and system to associate meaningful expressions with abbreviated names |
US10199034B2 (en) * | 2014-08-18 | 2019-02-05 | At&T Intellectual Property I, L.P. | System and method for unified normalization in text-to-speech and automatic speech recognition |
US9715873B2 (en) | 2014-08-26 | 2017-07-25 | Clearone, Inc. | Method for adding realism to synthetic speech |
DE102017213946B4 (de) * | 2017-08-10 | 2022-11-10 | Audi Ag | Verfahren zum Aufbereiten eines Erkennungsergebnisses eines automatischen Online-Spracherkenners für ein mobiles Endgerät |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1996022594A1 (en) * | 1995-01-20 | 1996-07-25 | Centigram Communications Corporation | Text to speech reader for electronic mail messages, address books and the like |
WO2004044887A1 (ja) * | 2002-11-11 | 2004-05-27 | Matsushita Electric Industrial Co., Ltd. | 音声認識用辞書作成装置および音声認識装置 |
US7028038B1 (en) * | 2002-07-03 | 2006-04-11 | Mayo Foundation For Medical Education And Research | Method for generating training data for medical text abbreviation and acronym normalization |
JP2009103921A (ja) * | 2007-10-23 | 2009-05-14 | Fujitsu Ltd | 省略語判定装置、コンピュータプログラム、テキスト解析装置及び音声合成装置 |
JP2009109758A (ja) * | 2007-10-30 | 2009-05-21 | Nissan Motor Co Ltd | 音声認識辞書生成装置及び方法 |
JP2009230062A (ja) * | 2008-03-25 | 2009-10-08 | Fujitsu Ltd | 音声合成装置およびそれを用いた読み上げシステム。 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6671670B2 (en) * | 2001-06-27 | 2003-12-30 | Telelogue, Inc. | System and method for pre-processing information used by an automated attendant |
US7536297B2 (en) * | 2002-01-22 | 2009-05-19 | International Business Machines Corporation | System and method for hybrid text mining for finding abbreviations and their definitions |
JP4680691B2 (ja) * | 2005-06-15 | 2011-05-11 | 富士通株式会社 | 対話システム |
US20070220037A1 (en) * | 2006-03-20 | 2007-09-20 | Microsoft Corporation | Expansion phrase database for abbreviated terms |
US7848918B2 (en) * | 2006-10-04 | 2010-12-07 | Microsoft Corporation | Abbreviation expansion based on learned weights |
US7809715B2 (en) * | 2008-04-15 | 2010-10-05 | Yahoo! Inc. | Abbreviation handling in web search |
US8312057B2 (en) * | 2008-10-06 | 2012-11-13 | General Electric Company | Methods and system to generate data associated with a medical report using voice inputs |
US8447609B2 (en) * | 2008-12-31 | 2013-05-21 | Intel Corporation | Adjustment of temporal acoustical characteristics |
-
2012
- 2012-05-02 DE DE112012006308.2T patent/DE112012006308B4/de not_active Expired - Fee Related
- 2012-05-02 JP JP2014513310A patent/JP5570675B2/ja not_active Expired - Fee Related
- 2012-05-02 WO PCT/JP2012/002972 patent/WO2013164870A1/ja active Application Filing
- 2012-05-02 US US14/382,282 patent/US20150019224A1/en not_active Abandoned
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1996022594A1 (en) * | 1995-01-20 | 1996-07-25 | Centigram Communications Corporation | Text to speech reader for electronic mail messages, address books and the like |
US7028038B1 (en) * | 2002-07-03 | 2006-04-11 | Mayo Foundation For Medical Education And Research | Method for generating training data for medical text abbreviation and acronym normalization |
WO2004044887A1 (ja) * | 2002-11-11 | 2004-05-27 | Matsushita Electric Industrial Co., Ltd. | 音声認識用辞書作成装置および音声認識装置 |
JP2009103921A (ja) * | 2007-10-23 | 2009-05-14 | Fujitsu Ltd | 省略語判定装置、コンピュータプログラム、テキスト解析装置及び音声合成装置 |
JP2009109758A (ja) * | 2007-10-30 | 2009-05-21 | Nissan Motor Co Ltd | 音声認識辞書生成装置及び方法 |
JP2009230062A (ja) * | 2008-03-25 | 2009-10-08 | Fujitsu Ltd | 音声合成装置およびそれを用いた読み上げシステム。 |
Also Published As
Publication number | Publication date |
---|---|
DE112012006308B4 (de) | 2016-02-04 |
US20150019224A1 (en) | 2015-01-15 |
JPWO2013164870A1 (ja) | 2015-12-24 |
WO2013164870A1 (ja) | 2013-11-07 |
DE112012006308T5 (de) | 2015-01-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5158174B2 (ja) | 音声認識装置 | |
JP4790024B2 (ja) | 音声認識装置 | |
US9239829B2 (en) | Speech recognition device | |
JP6251958B2 (ja) | 発話解析装置、音声対話制御装置、方法、及びプログラム | |
JP4559946B2 (ja) | 入力装置、入力方法および入力プログラム | |
WO2013005248A1 (ja) | 音声認識装置およびナビゲーション装置 | |
US20120203553A1 (en) | Recognition dictionary creating device, voice recognition device, and voice synthesizer | |
JP5570675B2 (ja) | 音声合成装置 | |
US20070156405A1 (en) | Speech recognition system | |
JP5335165B2 (ja) | 発音情報生成装置、車載情報装置およびデータベース生成方法 | |
US7809563B2 (en) | Speech recognition based on initial sound extraction for navigation and name search | |
JP2004053978A (ja) | 音声発生装置、音声発生方法及びナビゲーション装置 | |
US7295923B2 (en) | Navigation device and address input method thereof | |
JP2006330577A (ja) | 音声認識装置及び音声認識方法 | |
JP5591428B2 (ja) | 自動記録装置 | |
JP2000338993A (ja) | 音声認識装置、その装置を用いたナビゲーションシステム | |
JP4639990B2 (ja) | 音声対話装置及び音声理解結果生成方法 | |
JP2001027540A (ja) | 音声認識機能を用いたナビゲーション方法 | |
JP2000122685A (ja) | ナビゲーションシステム | |
JP2001141500A (ja) | 車載エージェント処理装置 | |
JP2005114964A (ja) | 音声認識方法および音声認識処理装置 | |
JP3911835B2 (ja) | 音声認識装置及びナビゲーションシステム | |
JP2004053979A (ja) | 音声認識辞書の作成方法及び音声認識辞書作成システム | |
JP2000330588A (ja) | 音声対話処理方法、音声対話処理システムおよびプログラムを記憶した記憶媒体 | |
JPH11282486A (ja) | サブワード型不特定話者音声認識装置及び方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20140520 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140527 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140624 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5570675 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |