JP6073540B2 - 情報提供システム - Google Patents

情報提供システム Download PDF

Info

Publication number
JP6073540B2
JP6073540B2 JP2016561111A JP2016561111A JP6073540B2 JP 6073540 B2 JP6073540 B2 JP 6073540B2 JP 2016561111 A JP2016561111 A JP 2016561111A JP 2016561111 A JP2016561111 A JP 2016561111A JP 6073540 B2 JP6073540 B2 JP 6073540B2
Authority
JP
Japan
Prior art keywords
unit
speech recognition
recognition target
word
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016561111A
Other languages
English (en)
Other versions
JPWO2016084129A1 (ja
Inventor
直哉 馬場
直哉 馬場
友紀 古本
友紀 古本
匠 武井
匠 武井
辰彦 斉藤
辰彦 斉藤
政信 大沢
政信 大沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP6073540B2 publication Critical patent/JP6073540B2/ja
Publication of JPWO2016084129A1 publication Critical patent/JPWO2016084129A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)
  • Navigation (AREA)

Description

この発明は、テキストを読み上げることによりユーザに情報を提供する情報提供システムに関するものである。
従来、Web等の情報源からテキストを取得しユーザに提示する情報提供装置の中には、提示したテキストに含まれるキーワードをユーザが発話することで、当該キーワードを音声認識し、当該キーワードに対応する情報をさらに取得し提示するものがある。
このような音声認識を利用した情報提供装置では、テキスト中のどの語が音声認識対象であるかをユーザに明示する必要がある。
そこで、音声認識対象語をユーザに明示する手段として、特許文献1には、Webから取得するハイパーテキスト情報のうち、リンク先ファイルの説明文の少なくとも一部(音声認識対象となる語)を強調して画面に表示することが記載されている。同様に、特許文献2には、外部から取得したコンテンツ情報のうち、音声認識対象となる語の表示形態を変更して画面に表示することが記載されている。
特開平11−25098号公報 特開2007−4280号公報
車載機器のような画面が小さい装置では、テキストを画面に表示するのではなく、読み上げることによってユーザに提示する場合がある。その場合、上記特許文献1,2のような方法を適用できない。
また、画面が小さいと表示可能な文字数にも限りがあるので、テキストを画面に表示するとしても、テキストすべてを表示できない場合がある。その場合、上記特許文献1,2のような方法では、文字数制限により音声認識対象語が画面に表示されず、音声認識対象語をユーザに明示できない可能性がある。
この発明は、上記のような課題を解決するためになされたもので、読み上げ用のテキストを画面に表示しない、あるいは画面に表示可能な文字数が限られている場合でも、当該テキストに含まれる音声認識対象語をユーザに明示することを目的とする。
この発明に係る情報提供システムは、テキストに含まれる単語または単語列のうち、当該単語または単語列に関する情報を情報源から取得できるものを音声認識対象語として抽出する抽出部と、テキストを読み上げる音声の合成に用いる情報および抽出部が抽出した音声認識対象語を出力する合成制御部と、合成制御部から受け取った情報を用いてテキストを読み上げる音声合成部と、音声合成部が音声認識対象語を読み上げるタイミングに合わせて、合成制御部から受け取った音声認識対象語を表示するよう表示部に指示する表示指示部とを備えるものである。
この発明によれば、テキストを読み上げる際、音声認識対象語を読み上げるタイミングで表示するようにしたので、読み上げ用のテキストを画面に表示しない、あるいは画面に表示可能な文字数が限られている場合でも、当該テキストに含まれる音声認識対象語をユーザに明示することができる。
この発明の実施の形態1に係る情報提供システムとその周辺機器の概略を説明する図である。 実施の形態1のディスプレイの表示例を示す図である。 実施の形態1に係る情報提供システムとその周辺機器の主なハードウエア構成を示す概略図である。 実施の形態1に係る情報提供システムの構成例を示すブロック図である。 実施の形態1に係る情報提供システムの情報処理制御部の動作を示すフローチャートである。 実施の形態1においてユーザが音声認識対象語を発話した場合の情報提供システムの動作の一例を示すフローチャートである。 この発明の実施の形態2に係る情報提供システムの構成例を示すブロック図である。 実施の形態2に係る情報提供システムの情報処理制御部の動作を示すフローチャートである。 この発明の実施の形態3に係る情報提供システムの構成例を示すブロック図である。 実施の形態3に係る情報提供システムの情報処理制御部の動作を示すフローチャートである。
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
なお、以下の実施の形態では、この発明に係る情報提供システムを車両等の移動体用のナビゲーション装置に適用した場合を例に挙げて説明するが、ナビゲーション装置の他、PC(パーソナルコンピュータ)、タブレットPC、およびスマートフォン等の携帯情報端末に適用してもよい。
実施の形態1.
図1は、この発明の実施の形態1に係る情報提供システム1とその周辺機器の概略を説明する図である。
情報提供システム1は、ネットワーク2を介してWebサーバ3などの外部情報源から読み上げテキストを取得し、取得した読み上げテキストを音声出力するよう、スピーカ5に対して指示する。加えて、情報提供システム1は、読み上げテキストを表示するよう、ディスプレイ(表示部)4に対して指示してもよい。
また、情報提供システム1は、読み上げテキストに含まれる音声認識対象となる単語または単語列を読み上げるタイミングで、当該単語または単語列をディスプレイ4に表示するよう指示する。以下では、単語または単語列を「単語列等」と呼び、音声認識対象となる単語列等を「音声認識対象語」と呼ぶ。
ユーザにより音声認識対象語が発話されると、情報提供システム1は、マイク6を介して発話音声を取得して認識し、認識した単語列等に関連する情報を音声出力するよう、スピーカ5に対して指示する。以下では、単語列等に関連する情報を「付加情報」と呼ぶ。
図2は、ディスプレイ4の表示例である。ここでは、読み上げテキストを「首相、消費税増税判断、有識者議論を開始方針『デフレ脱却が困難なら考慮』」とし、音声認識対象語を「首相」「消費税」「デフレ」として説明する。
ディスプレイ4の表示領域Aには、自車位置および地図などを示すナビゲーション画面が表示されているため、読み上げテキストを表示するための表示領域Bが狭い。そのため、読み上げテキスト全文を表示領域Bに一度に表示できない。そこで、情報提供システム1は、読み上げテキストの一部のみを表示させ、全文は音声出力させる。
あるいは、表示領域Bを確保できない場合、情報提供システム1は、読み上げテキストを表示せず、音声出力するだけでもよい。
情報提供システム1は、音声認識対象語である「首相」「消費税」「デフレ」を、それぞれの読み上げのタイミングでディスプレイ4の表示領域C1,C2,C3に表示させる。そして、ユーザにより例えば「消費税」と発話されると、情報提供システム1は、「消費税」に関する付加情報(例えば、「消費税」の意味または詳細説明等)を、スピーカ5から音声出力する等してユーザに提示する。なお、この例では、3つの表示領域を用意したが、表示領域は3つに限定しなくてもよい。
図3は、実施の形態1における情報提供システム1とその周辺機器の主なハードウエア構成を示す概略図である。バスには、CPU(Central Processing Unit)101、ROM(Read Only Memory)102、RAM(Randam Access Memory)103、入力装置104、通信装置105、HDD(Hard Disk Drive)106、出力装置107が接続されている。
CPU101は、ROM102またはHDD106に記憶された各種プログラムを読みだして実行することにより、各ハードウエアと協働して情報提供システム1の各種機能を実現する。CPU101が実現する情報提供システム1の各種機能については、後述の図4を用いて説明する。
RAM103は、プログラム実行時に使用するメモリである。
入力装置104は、ユーザ入力を受け付けるものであり、マイク、リモートコントローラ等の操作デバイス、またはタッチセンサ等である。図1では、入力装置104の例として、マイク6を図示している。
通信装置105は、ネットワーク2を介して通信するものである。
HDD106は、外部記憶装置の一例である。外部記憶装置としては、HDDの他に、CDもしくはDVD、またはUSBメモリおよびSDカード等のフラッシュメモリを採用したストレージ等が含まれる。
出力装置107は、情報をユーザに提示するものであり、スピーカ、液晶ディスプレイ、または有機EL(Electroluminescence)等である。図1では、出力装置107の例として、ディスプレイ4およびスピーカ5を図示している。
図4は、実施の形態1に係る情報提供システム1の構成例を示すブロック図である。
この情報提供システム1は、取得部10、抽出部12、合成制御部13、音声合成部14、表示指示部15、辞書生成部16、認識辞書17および音声認識部18を備えている。これらの機能は、CPU101がプログラムを実行することにより実現される。
抽出部12、合成制御部13、音声合成部14および表示指示部15は、情報処理制御部11を構成している。
なお、情報提供システム1を構成する取得部10、抽出部12、合成制御部13、音声合成部14、表示指示部15、辞書生成部16、認識辞書17および音声認識部18は、図4のように1つの装置内に集約されていてもよいし、あるいは、ネットワーク上のサーバ、スマートフォン等の携帯情報端末および車載器に分散されていてもよい。
取得部10は、ネットワーク2を介してWebサーバ3から、HTML(HyperText Markup Language)またはXML(eXtensible Markup Language)形式で記述されたコンテンツを取得する。そして、取得部10は、取得したコンテンツを解析し、ユーザに提示すべき読み上げテキストを取得する。
なお、ネットワーク2としては、例えば、インターネットおよび携帯電話等の公衆回線を使用することができる。
抽出部12は、取得部10により取得された読み上げテキストを解析して単語列等に分割する。分割の方法は、例えば形態素解析のような公知の技術を用いればよいため、説明を省略する。なお、分割の単位は形態素に限定されるものではない。
また、抽出部12は、分割した単語列等の中から音声認識対象語を抽出する。音声認識対象語は、読み上げテキストに含まれる単語列等であって、当該単語列等に関する付加情報(例えば、単語列等の意味または詳細説明)を情報源から取得できるものである。
なお、付加情報の情報源は、ネットワーク2上のWebサーバ3のような外部情報源であってもよいし、情報提供システム1が備えるデータベース(図示せず)等であってもよい。抽出部12は、取得部10を介してネットワーク2上の外部情報源に接続してもよいし、取得部10を介さず直接接続してもよい。
さらに、抽出部12は、読み上げテキストの先頭から、当該読み上げテキストにおけるそれぞれの音声認識対象語までのモーラ数を決定する。
上記の「首相、消費税増税判断、有識者議論を開始方針『デフレ脱却が困難なら考慮』」という読み上げテキストの場合、読み上げテキストの先頭からのモーラ数は、「首相」が「1」、「消費税」が「4」、「デフレ」が「33」となる。
合成制御部13は、読み上げテキストの全文に対して音声合成の際に必要なアクセント等の情報(以下、「アクセント情報」と記載する)を決定する。そして、合成制御部13は、決定したアクセント情報を、音声合成部14に対して出力する。
なお、アクセント情報の決定方法については公知の技術を用いればよいため説明を省略する。
また、合成制御部13は、抽出部12により決定された音声認識対象語ごとに、読み上げテキストの先頭から音声認識対象語までのモーラ数に基づいて読み上げ開始時間を算出する。例えば、合成制御部13で1モーラあたりの読み上げ速度が既定されており、音声認識対象語までのモーラ数を当該速度で割ることにより、当該音声認識対象語の読み上げ開始時間を算出する。そして、合成制御部13は、読み上げテキストのアクセント情報を音声合成部14へ出力開始した時点から計時し、推測した読み上げ開始時間になったら、音声認識対象語を表示指示部15に対して出力する。音声認識対象語を読み上げるタイミングに合わせて、当該音声認識対象語を表示することが可能である。
なお、音声合成部14へ出力開始した時点から計時としたが、後述するように、音声合成部14が合成音声を出力するようスピーカ5に対して指示した時点から計時するとしてもよい。
音声合成部14は、合成制御部13から出力されたアクセント情報に基づいて合成音声を生成し、合成音声を出力するようスピーカ5に対して指示する。
なお、音声合成の方法については公知の技術を用いればよいため説明を省略する。
表示指示部15は、合成制御部13から出力された音声認識対象語を表示するよう、ディスプレイ4に対して指示する。
辞書生成部16は、抽出部12により抽出された音声認識対象語を用いて、認識辞書17を生成する。
音声認識部18は、マイク6により集音された音声を、認識辞書17を参照して認識し、認識結果文字列を出力する。
なお、音声認識の方法については公知の技術を用いればよいため説明を省略する。
次に、図5および図6に示すフローチャートと具体例を用いて、実施の形態1の情報提供システム1の動作を説明する。
初めに、図5のフローチャートを用いて、情報処理制御部11の動作を説明する。
ここでは、読み上げテキストを「首相、消費税増税判断、有識者議論を開始方針『デフレ脱却が困難なら考慮』」とし、音声認識対象語を「首相」「消費税」「デフレ」として説明する。
まず、抽出部12は、上述の読み上げテキストを単語列等の単位に分割する(ステップST001)。ここでは、抽出部12が形態素解析を行って、上述した読み上げテキストを「/首相/、/消費税/増税/判断/、/有識者/議論/を/開始/方針/『/デフレ/脱却/が/困難/なら/考慮/』/」に分割する。
続いて、抽出部12は、分割した単語列等から音声認識対象語「首相」「消費税」「デフレ」を抽出する(ステップST002)。
ここで、辞書生成部16は、抽出部12により抽出された3つの音声認識対象語「首相」「消費税」「デフレ」に基づいて、認識辞書17を生成する(ステップST003)。
続いて、合成制御部13は、読み上げテキストの先頭から音声認識対象語「首相」までのモーラ数と読み上げ速度を用いて、読み上げテキストを読み上げる際の「首相」の読み上げ開始時間を算出する(ステップST004)。合成制御部13は同様に、音声認識対象語「消費税」「デフレ」までのモーラ数に基づいて読み上げ開始時間をそれぞれ算出する。
また、合成制御部13は、読み上げテキストの音声合成に必要なアクセント情報を生成する(ステップST005)。
以下で説明するステップST006のフローと、ステップST007〜ST009のフローは、並列に実行される。
合成制御部13が、読み上げテキストのアクセント情報を音声合成部14へ出力し、音声合成部14が、読み上げテキストの合成音声を生成してスピーカ5に出力し、読み上げを開始する(ステップST006)。
ステップST006と並行して、合成制御部13は、読み上げテキストの先頭からのモーラ数が小さい音声認識対象語から順に、読み上げ開始時間が経過したか否かを判定する(ステップST007)。合成制御部13は、読み上げテキストの先頭からのモーラ数が一番小さい音声認識対象語「首相」の読み上げ開始時間になると(ステップST007“YES”)、当該音声認識対象語「首相」を表示指示部15に出力する(ステップST008)。表示指示部15は、ディスプレイ4に指示して、音声認識対象語「首相」を表示させる。
続いて、合成制御部13は、3つの音声認識対象語をすべて表示したか否かを判定する(ステップST009)。現段階では音声認識対象語「消費税」「デフレ」が残っているので(ステップST009“NO”)、合成制御部13は、ステップST007〜ST009をもう2回繰り返す。合成制御部13は、音声認識対象語をすべて表示し終えると(ステップST009“YES”)、一連の処理を終了する。
これにより、図2において、読み上げテキスト「首相、消費税増税判断、有識者議論を開始方針『デフレ脱却が困難なら考慮』」の「首相」が読み上げられるタイミングで、表示領域C1に「首相」が表示され、「消費税」が読み上げられるタイミングで表示領域C2に「消費税」が表示され、「デフレ」が読み上げられるタイミングで表示領域C3に「デフレ」が表示される。
ユーザは、表示領域C1〜C3に表示された音声認識対象語を発話することで、その語に関連する付加情報の提供を受けることができる。付加情報の提供については図6で詳述する。
なお、表示指示部15は、音声認識対象語をディスプレイ4に表示する際、強調表示するよう指示してもよい。音声認識対象語の強調表示は、目立つ字体にする、文字を大きくする、目立つ文字色にする、表示領域C1〜C3を点滅させる、文字に記号(例えば、“”)を付加するといった方法がある。また、音声認識対象語の表示前後で、表示領域C1〜C3の色(つまり、背景色)を変更する、輝度を変更するといった方法でもよい。これらの強調表示を組み合わせてもよい。
さらに、表示指示部15は、音声認識対象語をディスプレイ4に表示する際、表示領域C1〜C3を、音声認識対象語を選択するソフトウエアキーとするよう指示してもよい。ソフトウエアキーは、ユーザが入力装置104を用いて選択操作可能なものであればよく、例えば、タッチセンサによって選択可能なタッチボタン、または操作デバイスによって選択可能なボタン等とする。
次に、図6のフローチャートを用いて、音声認識対象語をユーザが発話した場合の情報提供システム1の動作を説明する。
音声認識部18は、ユーザが発話した音声をマイク6を介して取得し、認識辞書17を参照して認識し、認識結果文字列を出力する(ステップST101)。続いて、取得部10は、音声認識部18が出力した認識結果文字列に関連する付加情報を、ネットワーク2を介してWebサーバ3等から取得する(ステップST102)。そして、合成制御部13は、取得部10により取得された情報の音声合成に必要なアクセント情報を決定し、音声合成部14に出力する(ステップST103)。最後に、音声合成部14は、合成制御部13が出力したアクセント情報に基づいて合成音声を生成し、スピーカ5に対して出力するよう指示する(ステップST104)。
なお、図6では、ユーザにより音声認識対象語が発話された場合に情報提供システム1がその語に関連する付加情報を取得して音声出力する構成にしたが、これに限定されるものではなく、例えば、認識した単語列等が施設のブランド名であればそのブランド名の周辺検索を実行して検索結果を表示する等の所定の動作を行う構成にしてもよい。付加情報は、Webサーバ3等の外部情報源から取得してもよいし、情報提供システム1が内蔵するデータベース等から取得してもよい。
また、ユーザの発話後に取得部10が付加情報を取得する構成にしたが、これに限定されるものではなく、例えば、抽出部12が読み上げテキストから音声認識対象語を抽出する際に付加情報の有無を判断するだけでなく付加情報を取得して蓄積しておく構成にしてもよい。
以上より、実施の形態1によれば、情報提供システム1は、読み上げテキストに含まれる単語列等のうち、当該単語列等に関する付加情報を情報源から取得できるものを音声認識対象語として抽出する抽出部12と、読み上げテキストを読み上げる音声の合成に用いるアクセント情報および抽出部12が抽出した音声認識対象語を出力する合成制御部13と、合成制御部13から受け取ったアクセント情報を用いて読み上げテキストを読み上げる音声合成部14と、音声合成部14が音声認識対象語を読み上げるタイミングに合わせて、合成制御部13から受け取った音声認識対象語を表示するようディスプレイ4に指示する表示指示部15とを備える構成にした。表示指示部15は、音声合成部14が音声認識対象語を読み上げるタイミングに合わせて合成制御部13から当該音声認識対象語を受け取るので、受け取った当該音声認識対象語をディスプレイ4に表示させる。これにより、テキストを読み上げる際、音声認識対象語を読み上げるタイミングで表示するようになるので、読み上げテキストを画面に表示しない、あるいは画面に表示可能な文字数が限られている場合でも、当該テキストに含まれる音声認識対象語をユーザに明示することができる。
また、実施の形態1によれば、表示指示部15は、音声認識対象語を強調表示するようディスプレイ4に指示する構成にした。そのため、ユーザは、音声認識対象語が表示されたことに気付きやすくなる。
また、実施の形態1によれば、表示指示部15は、ディスプレイ4が音声認識対象語を表示する領域を、当該音声認識対象語を選択するソフトウエアキーとするよう指示する構成にした。そのため、ユーザは、状況に応じて、音声操作とソフトウエアキー操作とを使い分けることができるようになり、利便性が向上する。
実施の形態2.
図7は、この発明の実施の形態2に係る情報提供システム1の構成例を示すブロック図である。図7において、図4と同一または相当の部分については同一の符号を付し説明を省略する。
実施の形態2の情報提供システム1は、音声認識対象語を記憶する記憶部20を備えている。また、実施の形態2の情報処理制御部21は、上記実施の形態1の情報処理制御部11とは一部動作が異なるため、以下で説明する。
抽出部22は、上記実施の形態1と同様、取得部10により取得された読み上げテキストを解析して単語列等に分割する。
実施の形態2の抽出部22は、分割した単語列等の中から音声認識対象語を抽出し、抽出した音声認識対象語を記憶部20に記憶させる。
合成制御部23は、上記実施の形態1と同様、取得部10により取得された読み上げテキストを解析して単語列等に分割する。また、合成制御部23は、分割した単語列等ごとに音声合成の際に必要なアクセント情報を決定する。そして、合成制御部23は、決定したアクセント情報を、読み上げテキストの先頭から単語列等の単位で、音声合成部24に対して出力する。
実施の形態2の合成制御部23は、アクセント情報を音声合成部24に出力すると同時に、当該アクセント情報に対応する単語列等を表示指示部25に対して出力する。
音声合成部24は、上記実施の形態1と同様、合成制御部23から出力されたアクセント情報に基づいて合成音声を生成し、スピーカ5に対して合成音声を出力するよう指示する。
実施の形態2の表示指示部25は、合成制御部23から出力された単語列等が記憶部20に存在するか否かを判定する。つまり、合成制御部23から出力された単語列等が音声認識対象語であるか否かを判定する。表示指示部25は、合成制御部23から出力された単語列等が記憶部20に存在する場合、当該単語列等、つまり音声認識対象語を表示するようディスプレイ4に対して指示する。
なお、図7では、合成制御部23は、取得部10から読み上げテキストを取得して単語列等に分割したが、分割済みの単語列等を抽出部22から取得してもよい。
また、表示指示部25が記憶部20を参照して単語列等が音声認識対象語であるか否かを判定したが、合成制御部23がその判定を行ってもよい。その場合、合成制御部23は、アクセント情報を音声合成部24へ出力する際に当該アクセント情報に対応する単語列等が記憶部20に存在するか否かを判定し、記憶部20に存在する単語列等を表示指示部25に対して出力し、存在しない単語列等は出力しない。表示指示部25は、合成制御部23から出力された単語列等を表示するようディスプレイ4へ指示するのみとなる。
また、上記実施の形態1と同様に、表示指示部25は、音声認識対象語をディスプレイ4に表示する際、強調表示するよう指示してもよい。さらに、表示指示部25は、音声認識対象語を表示する表示領域C1〜C3(図2に示す)を、音声認識対象語を選択するソフトウエアキーとするよう指示してもよい。
次に、図8のフローチャートを用いて、情報処理制御部21の動作を説明する。
ここでは、読み上げテキストを「首相、消費税増税判断、有識者議論を開始方針『デフレ脱却が困難なら考慮』」とし、音声認識対象語を「首相」「消費税」「デフレ」として説明する。
まず、抽出部22は、上述の読み上げテキストを単語列等の単位に分割し(ステップST201)、分割した単語列等から音声認識対象語を抽出する(ステップST202)。
ここで、辞書生成部16は、抽出部22により抽出された上述の3つの音声認識対象語に基づいて、認識辞書17を生成する(ステップST203)。
また、抽出部22は、抽出した3つの音声認識対象語を記憶部20に記憶させる(ステップST204)。
続いて、合成制御部23は、上述の読み上げテキストを単語列等の単位に分割し、音声合成に必要なアクセント情報を決定する(ステップST205)。そして、合成制御部23は、分割した単語列等の先頭(ここでは、「首相」)から順に、単語列等の単位で、アクセント情報と単語列等を音声合成部24と表示指示部25へ出力する(ステップST206)。
音声合成部24は、合成制御部23から出力された単語列等の単位のアクセント情報に基づいて、単語列等の合成音声を生成してスピーカ5に出力し、読み上げる(ステップST207)。
ステップST207と並行して、表示指示部25は、合成制御部23から出力された単語列等が記憶部20に記憶されている音声認識対象語に一致するか否かを判定する(ステップST208)。表示指示部25は、合成制御部23から出力された単語列等と記憶部20の音声認識対象語とが一致している場合には(ステップST208“YES”)、当該単語列等を表示するようディスプレイ4に対して指示する(ステップST209)。一方、合成制御部23から出力された単語列等と記憶部20の音声認識対象語とが一致しない場合には(ステップST208“NO”)、音声合成部24はステップST209をスキップする。
読み上げテキストの先頭の単語列等「首相」は音声認識対象語であるので、この語が読み上げられると同時に、ディスプレイ4の表示領域C1(図2に示す)に表示される。
続いて、合成制御部23は、読み上げテキストのすべての単語列等を出力したか否かを判定する(ステップST210)。現段階では先頭の単語列等しか出力し終えていないので(ステップST210“NO”)、合成制御部23は、ステップST206へ戻る。合成制御部23は、読み上げテキストの先頭の単語列等から最後の単語列等まで出力し終えると(ステップST210“YES”)、一連の処理を終了する。
これにより、図2に示すように、読み上げテキスト「首相、消費税増税判断、有識者議論を開始方針『デフレ脱却が困難なら考慮』」の中の「首相」「消費税」「デフレ」が読み上げられるタイミングで、表示領域C1〜C3に「首相」「消費税」「デフレ」が表示される。
ユーザは、表示領域C1〜C3に表示された音声認識対象語を発話することで、その語に関連する付加情報の提供を受けることができる。
以上より、実施の形態2によれば、情報提供システム1は、読み上げテキストに含まれる単語列等のうち、当該単語列等に関する付加情報を情報源から取得できるものを音声認識対象語として抽出する抽出部22と、読み上げテキストを読み上げる音声の合成に用いるアクセント情報および抽出部22が抽出した音声認識対象語を出力する合成制御部23と、合成制御部23から受け取ったアクセント情報を用いて読み上げテキストを読み上げる音声合成部24と、音声合成部24が音声認識対象語を読み上げるタイミングに合わせて、合成制御部23から受け取った音声認識対象語を表示するようディスプレイ4に指示する表示指示部25とを備える構成にした。表示指示部25は、音声合成部24が単語列等を読み上げるタイミングに合わせて合成制御部23から当該単語列等を受け取り、受け取った当該単語列等が音声認識対象語である場合にディスプレイ4に表示させる。これにより、テキストを読み上げる際、音声認識対象語を読み上げるタイミングで表示するようになるので、読み上げテキストを画面に表示しない、あるいは画面に表示可能な文字数が限られている場合でも、当該テキストに含まれる音声認識対象語をユーザに明示することができる。
実施の形態3.
図9は、この発明の実施の形態3に係る情報提供システム1の構成例を示すブロック図である。図9において、図4および図7と同一または相当の部分については同一の符号を付し説明を省略する。
実施の形態3の情報提供システム1は、音声認識対象語を記憶する記憶部30を備えている。また、実施の形態3の情報処理制御部31は、読み上げテキストを読み上げる際に音声認識対象語とそれ以外の単語列等とを区別するために、読み上げ方法変更部36を備えている。
実施の形態3の情報処理制御部31は、読み上げ方法変更部36を備えたことにより、上記実施の形態2の情報処理制御部21とは一部動作が異なるため、以下で説明する。
抽出部32は、上記実施の形態2と同様、取得部10により取得された読み上げテキストを解析して単語列等に分割し、分割した単語列等の中から音声認識対象語を抽出して記憶部30に記憶させる。
合成制御部33は、上記実施の形態2と同様、取得部10により取得された読み上げテキストを解析して単語列等に分割し、単語列等の単位でアクセント情報を決定する。
実施の形態3の合成制御部33は、単語列等が記憶部30に存在するか否かを判定する。つまり、当該単語列等が音声認識対象語であるか否かを判定する。そして、合成制御部33は、決定したアクセント情報を、読み上げテキストの先頭から単語列等の単位で、音声合成部34に対して出力する。その際、合成制御部33は、出力するアクセント情報に対応する単語列等が音声認識対象語であれば、当該単語列等の読み上げ方法を変更するよう読み上げ方法変更部36に指示する。さらに、合成制御部33は、出力するアクセント情報に対応する単語列等が音声認識対象語であれば、当該単語列等を表示指示部35に対して出力する。
読み上げ方法変更部36は、合成制御部33により単語列等の読み上げ方法を変更するよう指示があった場合のみ、読み上げ方法を変更するようアクセント情報を再決定する。読み上げ方法の変更は、読み上げるピッチ(声の高さ)の変更、読み上げる速度の変更、読み上げ前後のポーズの有無の変更、読み上げる音量の変更、および読み上げ中の効果音の有無の変更のうちの少なくとも1つの方法により行う。
ユーザが音声認識対象語とそれ以外の単語列等とを聞き分けやすいように、音声認識対象語を読み上げるピッチを高くしたり、音声認識対象語の前後にポーズを入れたり、音声認識対象語を読み上げる音量を大きくしたり、音声認識対象語の読み上げ中に効果音を付加したりすることが好ましい。
音声合成部34は、読み上げ方法変更部36から出力されたアクセント情報に基づいて合成音声を生成し、スピーカ5に対して合成音声を出力するよう指示する。
表示指示部35は、合成制御部33から出力された単語列等を表示するよう、ディスプレイ4に対して指示する。実施の形態3では、合成制御部33から表示指示部35に出力される単語列等はすべて音声認識対象語である。
なお、図9では、合成制御部33は、取得部10から読み上げテキストを取得して単語列等に分割したが、分割済みの単語列等を抽出部32から取得してもよい。
また、上記実施の形態1と同様に、表示指示部35は、音声認識対象語をディスプレイ4に表示する際、強調表示するよう指示してもよい。さらに、表示指示部35は、音声認識対象語を表示する表示領域C1〜C3(図2に示す)を、音声認識対象語を選択するソフトウエアキーとするよう指示してもよい。
次に、図10のフローチャートを用いて、情報処理制御部31の動作を説明する。
ここでは、読み上げテキストを「首相、消費税増税判断、有識者議論を開始方針『デフレ脱却が困難なら考慮』」とし、音声認識対象語を「首相」「消費税」「デフレ」として説明する。
まず、抽出部32は、上述の読み上げテキストを単語列等の単位に分割し(ステップST301)、分割した単語列等から音声認識対象語を抽出する(ステップST302)。
ここで、辞書生成部16は、抽出部32により抽出された上述の3つの音声認識対象語に基づいて、認識辞書17を生成する(ステップST303)。
また、抽出部32は、抽出した3つの音声認識対象語を記憶部30に記憶させる(ステップST304)。
続いて、合成制御部33は、上述の読み上げテキストを単語列等の単位に分割し、音声合成に必要なアクセント情報を決定する(ステップST305)。そして、合成制御部33は、分割した単語列等の先頭(ここでは、「首相」)から順に単語列等の単位で、アクセント情報を読み上げ方法変更部36へ出力する際、当該単語列等が記憶部30に記憶されているか否か、つまり音声認識対象語か否かを判定する(ステップST306)。
出力する単語列等が音声認識対象語である場合(ステップST306“YES”)、合成制御部33は、当該単語列等のアクセント情報と読み上げ変更指示を、読み上げ方法変更部36に対して出力する(ステップST307)。
読み上げ方法変更部36は、合成制御部33から出力された読み上げ変更指示に従って、音声認識対象語のアクセント情報を再決定し、音声合成部34に対して出力する(ステップST308)。
音声合成部34は、読み上げ方法変更部36により再決定されたアクセント情報に基づいて、音声認識対象語の合成音声を生成してスピーカ5に出力し、読み上げる(ステップST309)。
ステップST307〜ST309と並行して、合成制御部33は、読み上げ方法変更部36に出力したアクセント情報に対応する音声認識対象語を表示指示部35に対して出力する(ステップST310)。表示指示部35は、合成制御部33から出力された音声認識対象語を表示するようディスプレイ4に対して指示する。
読み上げテキストの先頭の単語列等「首相」は音声認識対象語であるので、読み上げ方法が変わると同時に、ディスプレイ4の表示領域C1(図2に示す)に表示される。
一方、出力する単語列等が音声認識対象語でない場合(ステップST306“NO”)、合成制御部33は、当該単語列等のアクセント情報を読み上げ方法変更部36に対して出力する(ステップST311)。合成制御部33から表示指示部35への出力はない。
読み上げ方法変更部36は、合成制御部33から出力された単語列等のアクセント情報をそのまま音声合成部34へ出力し、音声合成部34が、そのアクセント情報に基づいて単語列等の合成音声を生成してスピーカ5に出力し、読み上げる(ステップST312)。
続いて、合成制御部33は、読み上げテキストの先頭の単語列等から最後の単語列等まで、すべての単語列等を出力したか否かを判定する(ステップST313)。合成制御部33は、読み上げテキストのすべての単語列等を出力し終えていない場合(ステップST313“NO”)、ステップST306へ戻り、出力し終えた場合(ステップST313“YES”)、一連の処理を終了する。
これにより、図2に示すように、読み上げテキスト「首相、消費税増税判断、有識者議論を開始方針『デフレ脱却が困難なら考慮』」の中の「首相」「消費税」「デフレ」が読み上げられるタイミングで、読み上げ方法が変わると共に表示領域C1〜C3に「首相」「消費税」「デフレ」が表示される。
ユーザは、読み上げ方法が変更された、あるいは表示領域C1〜C3に表示された音声認識対象語を発話することで、その語に関連する付加情報の提供を受けることができる。
以上より、実施の形態3によれば、情報提供システム1は、読み上げテキストに含まれる単語列等のうち、当該単語列等に関する付加情報を情報源から取得できるものを音声認識対象語として抽出する抽出部32と、読み上げテキストを読み上げる音声の合成に用いるアクセント情報および抽出部32が抽出した音声認識対象語を出力する合成制御部33と、合成制御部33から受け取ったアクセント情報を用いて読み上げテキストを読み上げる音声合成部34と、音声合成部34が音声認識対象語を読み上げるタイミングに合わせて、合成制御部33から受け取った音声認識対象語を表示するようディスプレイ4に指示する表示指示部35とを備える構成にした。表示指示部35は、音声合成部34が音声認識対象語を読み上げるタイミングに合わせて合成制御部33から当該音声認識対象語を受け取るので、受け取った当該音声認識対象語をディスプレイ4に表示させる。これにより、テキストを読み上げる際、音声認識対象語を読み上げるタイミングで表示するようになるので、読み上げテキストを画面に表示しない、あるいは画面に表示可能な文字数が限られている場合でも、当該テキストに含まれる音声認識対象語をユーザに明示することができる。
また、実施の形態3によれば、情報提供システム1は、音声合成部34が読み上げる方法を読み上げテキストのうちの音声認識対象語とそれ以外とで変更する読み上げ方法変更部36を備える構成にした。これにより、ユーザは、運転負荷が高い場合等、画面を見る余裕がない状況下でも音声認識対象語を把握できるため、利便性が向上する。
なお、読み上げ方法変更部36は、上記実施の形態1,2の情報提供システム1に追加することが可能である。
上記実施の形態1〜3では、情報提供システム1を、日本語の読み上げテキストに合わせた構成にしたが、日本語以外の言語に合わせた構成にしてもよい。
なお、この発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、各実施の形態の任意の構成要素の変形、または各実施の形態の任意の構成要素の省略が可能である。
この発明に係る情報提供システムは、テキストを読み上げる際、音声認識対象語を読み上げるタイミングに合わせて音声認識対象語を表示するようにしたので、画面に表示可能な文字数が限られている車載機器および携帯情報端末などに用いるのに適している。
1 情報提供システム、2 ネットワーク、3 Webサーバ(情報源)、4 ディスプレイ(表示部)、5 スピーカ、6 マイク、10 取得部、11,21,31 情報処理制御部、12,22,32 抽出部、13,23,33 合成制御部、14,24,34 音声合成部、15,25,35 表示指示部、16 辞書生成部、17 認識辞書、18 音声認識部、20,30 記憶部、36 読み上げ方法変更部、101 CPU、102 ROM、103 RAM、104 入力装置、105 通信装置、106 HDD、107 出力装置。

Claims (6)

  1. テキストに含まれる単語または単語列のうち、当該単語または単語列に関する情報を情報源から取得できるものを音声認識対象語として抽出する抽出部と、
    前記テキストを読み上げる音声の合成に用いる情報および前記抽出部が抽出した前記音声認識対象語を出力する合成制御部と、
    前記合成制御部から受け取った前記情報を用いて前記テキストを読み上げる音声合成部と、
    前記音声合成部が前記音声認識対象語を読み上げるタイミングに合わせて、前記合成制御部から受け取った前記音声認識対象語を表示するよう表示部に指示する表示指示部とを備える情報提供システム。
  2. 前記表示指示部は、前記音声認識対象語を強調表示するよう前記表示部に指示することを特徴とする請求項1記載の情報提供システム。
  3. 前記強調表示は、字体、文字の大きさ、文字色、背景色、輝度、点滅、および記号の付加のうちの少なくとも1つにより行われることを特徴とする請求項2記載の情報提供システム。
  4. 前記音声合成部の読み上げ方法を前記テキストのうちの前記音声認識対象語とそれ以外とで変更する読み上げ方法変更部を備えることを特徴とする請求項1記載の情報提供システム。
  5. 前記読み上げ方法の変更は、読み上げるピッチの変更、読み上げる速度の変更、読み上げ前後のポーズの有無の変更、読み上げる音量の変更、および読み上げ中の効果音の有無の変更のうちの少なくとも1つであることを特徴とする請求項4記載の情報提供システム。
  6. 前記表示指示部は、前記表示部が前記音声認識対象語を表示する領域を、当該音声認識対象語を選択するソフトウエアキーとするよう指示することを特徴とする請求項1記載の情報提供システム。
JP2016561111A 2014-11-25 2014-11-25 情報提供システム Expired - Fee Related JP6073540B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/081087 WO2016084129A1 (ja) 2014-11-25 2014-11-25 情報提供システム

Publications (2)

Publication Number Publication Date
JP6073540B2 true JP6073540B2 (ja) 2017-02-01
JPWO2016084129A1 JPWO2016084129A1 (ja) 2017-04-27

Family

ID=56073754

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016561111A Expired - Fee Related JP6073540B2 (ja) 2014-11-25 2014-11-25 情報提供システム

Country Status (5)

Country Link
US (1) US20170309269A1 (ja)
JP (1) JP6073540B2 (ja)
CN (1) CN107004404B (ja)
DE (1) DE112014007207B4 (ja)
WO (1) WO2016084129A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109817208A (zh) * 2019-01-15 2019-05-28 上海交通大学 一种适合各地方言的驾驶员语音智能交互设备及方法
US10896686B2 (en) 2019-05-29 2021-01-19 Capital One Services, Llc Methods and systems for providing images for facilitating communication
US10878800B2 (en) * 2019-05-29 2020-12-29 Capital One Services, Llc Methods and systems for providing changes to a voice interacting with a user
US11367429B2 (en) * 2019-06-10 2022-06-21 Microsoft Technology Licensing, Llc Road map for audio presentation of communications

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004163265A (ja) * 2002-11-13 2004-06-10 Nissan Motor Co Ltd ナビゲーション装置
JP2006243521A (ja) * 2005-03-04 2006-09-14 Sony Corp 文章出力装置、その方法及びプログラム
JP2010139826A (ja) * 2008-12-12 2010-06-24 Toyota Motor Corp 音声認識システム
JP2012058745A (ja) * 2011-10-26 2012-03-22 Kyocera Corp 音声合成機能付き文字情報表示装置およびその制御方法

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5924068A (en) * 1997-02-04 1999-07-13 Matsushita Electric Industrial Co. Ltd. Electronic news reception apparatus that selectively retains sections and searches by keyword or index for text to speech conversion
JPH1125098A (ja) 1997-06-24 1999-01-29 Internatl Business Mach Corp <Ibm> 情報処理装置、リンク先ファイルの取得方法および記憶媒体
US6457031B1 (en) * 1998-09-02 2002-09-24 International Business Machines Corp. Method of marking previously dictated text for deferred correction in a speech recognition proofreader
US6064965A (en) * 1998-09-02 2000-05-16 International Business Machines Corporation Combined audio playback in speech recognition proofreader
JP3822990B2 (ja) * 1999-01-07 2006-09-20 株式会社日立製作所 翻訳装置、記録媒体
US6876969B2 (en) * 2000-08-25 2005-04-05 Fujitsu Limited Document read-out apparatus and method and storage medium
US7120583B2 (en) * 2000-10-02 2006-10-10 Canon Kabushiki Kaisha Information presentation system, information presentation apparatus, control method thereof and computer readable memory
US6728681B2 (en) * 2001-01-05 2004-04-27 Charles L. Whitham Interactive multimedia book
CN1369834B (zh) * 2001-01-24 2010-04-28 松下电器产业株式会社 语音转换设备
JP2003108171A (ja) * 2001-09-27 2003-04-11 Clarion Co Ltd 文書読み上げ装置
JP2003271182A (ja) * 2002-03-18 2003-09-25 Toshiba Corp 音響モデル作成装置及び音響モデル作成方法
JP2005190349A (ja) * 2003-12-26 2005-07-14 Mitsubishi Electric Corp メール読み上げ装置
JP3962763B2 (ja) * 2004-04-12 2007-08-22 松下電器産業株式会社 対話支援装置
JP4277746B2 (ja) * 2004-06-25 2009-06-10 株式会社デンソー カーナビゲーション装置
US8799401B1 (en) * 2004-07-08 2014-08-05 Amazon Technologies, Inc. System and method for providing supplemental information relevant to selected content in media
CN1300762C (zh) * 2004-09-06 2007-02-14 华南理工大学 文本和自然语音自动同步方法
FR2884023B1 (fr) * 2005-03-31 2011-04-22 Erocca Dispositif pour la communication par des personnes handicapees de la parole et/ou de l'ouie
JP4675691B2 (ja) 2005-06-21 2011-04-27 三菱電機株式会社 コンテンツ情報提供装置
US20070211071A1 (en) * 2005-12-20 2007-09-13 Benjamin Slotznick Method and apparatus for interacting with a visually displayed document on a screen reader
US7689417B2 (en) * 2006-09-04 2010-03-30 Fortemedia, Inc. Method, system and apparatus for improved voice recognition
US20080208589A1 (en) * 2007-02-27 2008-08-28 Cross Charles W Presenting Supplemental Content For Digital Media Using A Multimodal Application
JP2008225254A (ja) * 2007-03-14 2008-09-25 Canon Inc 音声合成装置及び方法並びにプログラム
JP4213755B2 (ja) * 2007-03-28 2009-01-21 株式会社東芝 音声翻訳装置、方法およびプログラム
JP2009205579A (ja) * 2008-02-29 2009-09-10 Toshiba Corp 音声翻訳装置およびプログラム
JP5083155B2 (ja) * 2008-09-30 2012-11-28 カシオ計算機株式会社 辞書機能を備えた電子装置およびプログラム
JP4935869B2 (ja) * 2009-08-07 2012-05-23 カシオ計算機株式会社 電子機器及びプログラム
CN102314778A (zh) * 2010-06-29 2012-01-11 鸿富锦精密工业(深圳)有限公司 电子阅读器
CN102314874A (zh) * 2010-06-29 2012-01-11 鸿富锦精密工业(深圳)有限公司 文本到语音转换系统与方法
US9162574B2 (en) * 2011-12-20 2015-10-20 Cellco Partnership In-vehicle tablet
US8731905B1 (en) * 2012-02-22 2014-05-20 Quillsoft Ltd. System and method for enhancing comprehension and readability of text
KR101193362B1 (ko) * 2012-04-13 2012-10-19 최병기 문자열을 발음 단위로 분할하는 방법, 이를 이용하는 문자열의 어조 표현 방법 및 문자열의 어조를 표현하는 동영상 데이터가 저장된 저장매체
US9317486B1 (en) * 2013-06-07 2016-04-19 Audible, Inc. Synchronizing playback of digital content with captured physical content
CN103530415A (zh) * 2013-10-29 2014-01-22 谭永 一种兼容关键词搜索的自然语言搜索方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004163265A (ja) * 2002-11-13 2004-06-10 Nissan Motor Co Ltd ナビゲーション装置
JP2006243521A (ja) * 2005-03-04 2006-09-14 Sony Corp 文章出力装置、その方法及びプログラム
JP2010139826A (ja) * 2008-12-12 2010-06-24 Toyota Motor Corp 音声認識システム
JP2012058745A (ja) * 2011-10-26 2012-03-22 Kyocera Corp 音声合成機能付き文字情報表示装置およびその制御方法

Also Published As

Publication number Publication date
DE112014007207T5 (de) 2017-08-03
US20170309269A1 (en) 2017-10-26
CN107004404B (zh) 2021-01-29
DE112014007207B4 (de) 2019-12-24
JPWO2016084129A1 (ja) 2017-04-27
CN107004404A (zh) 2017-08-01
WO2016084129A1 (ja) 2016-06-02

Similar Documents

Publication Publication Date Title
JP7106680B2 (ja) ニューラルネットワークを使用したターゲット話者の声でのテキストからの音声合成
TWI281146B (en) Apparatus and method for synthesized audible response to an utterance in speaker-independent voice recognition
US11450313B2 (en) Determining phonetic relationships
KR102196400B1 (ko) 핫워드 적합성을 결정하는 방법 및 장치
JP6251958B2 (ja) 発話解析装置、音声対話制御装置、方法、及びプログラム
JP5419136B2 (ja) 音声出力装置
JP6073540B2 (ja) 情報提供システム
EP3021318A1 (en) Speech synthesis apparatus and control method thereof
CN108431883B (zh) 语言学习系统以及语言学习程序
US20150039318A1 (en) Apparatus and method for selecting control object through voice recognition
US8315873B2 (en) Sentence reading aloud apparatus, control method for controlling the same, and control program for controlling the same
US20170372695A1 (en) Information providing system
CN110570876A (zh) 歌声合成方法、装置、计算机设备和存储介质
JP2015014665A (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JP5606951B2 (ja) 音声認識システムおよびこれを用いた検索システム
CN112750445A (zh) 语音转换方法、装置和系统及存储介质
JP5335165B2 (ja) 発音情報生成装置、車載情報装置およびデータベース生成方法
JP2012088370A (ja) 音声認識システム、音声認識端末、およびセンター
US20210065678A1 (en) Speech synthesis method and apparatus
JP5949634B2 (ja) 音声合成システム、及び音声合成方法
JP2005283646A (ja) 音声認識率推定装置
JP2004171174A (ja) 文章読み上げ装置、読み上げのためのプログラム及び記録媒体
Engell TaleTUC: Text-to-Speech and Other Enhancements to Existing Bus Route Information Systems
KR20230013826A (ko) 인공 지능 모델을 이용하여 음성 인식 서비스를 제공하는 장치 및 방법
JP5954221B2 (ja) 音源特定システム、及び音源特定方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161011

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20161011

TRDD Decision of grant or rejection written
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20161130

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170104

R150 Certificate of patent or registration of utility model

Ref document number: 6073540

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees