JP2006208793A

JP2006208793A - 音声処理装置、音声処理方法およびプログラム

Info

Publication number: JP2006208793A
Application number: JP2005021533A
Authority: JP
Inventors: Hideaki Takeda; 秀明竹田; Katsunori Takahashi; 克典高橋
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2005-01-28
Filing date: 2005-01-28
Publication date: 2006-08-10

Abstract

【課題】聞き逃し単語を再度読み上げさせる場合、必要な箇所をすぐに読み上げさせることのできる「音声処理装置」、「音声処理方法」および「プログラム」を提供することを目的とする。
【解決手段】音声処理装置２は、読み上げ文を音声合成する音声合成部２３と、発話スイッチ４によって読み上げ文を読み上げ中に再度の読み上げが選択されたとき、読み上げ文中で再度の読み上げが選択された際の直前の文節から読み上げを開始するよう音声合成部２３を制御する制御部２２とを備える。本発明によれば、聞き逃した単語を再度読み上げさせる場合、読み上げ文中で再度の読み上げが選択された際の直前の文節から読み上げを開始するので、必要な箇所をすぐに読み上げさせることができる。制御部２２は、直前の文節から読み上げを開始する際に、直前の文節を読み上げる際の音量が大きくなるよう音声合成部を制御する。
【選択図】図１

Description

本発明は、音声処理装置、音声処理方法及びプログラムに関する。

従来、音声を直接人間の発声そのままによらないで、人工的に作りだす音声合成（speech synthesis）が提案されている。この音声合成の機能を例えばナビゲーションに持たせることにより、ニュース記事の読み上げや地点情報の読み上げを行うことができる。しかし、ニュース記事や地点情報の読み上げは、主に走行中に使用される機能であり、漠然と聞き流していたときやロードノイズなどにより、直前の単語がはっきり聞き取れないことがある。例えば、読み上げを始めるとき、たとえば、いきなり「馬耳東風」という単語が読み上げられた場合、この「馬耳東風」という部分を聞き逃したり、ロードノイズによって、聞き取れなかったりすることがある。このため、聞き逃した箇所を再度読み上げる技術が提案されている（従来技術１）。

また、他の従来技術として以下のようなものが提案されている。特許文献１に記載の技術は、現時点から所定時間長分だけ遡った時点までの音声信号を記憶しておき、利用者から与えられた指示に応じた時間長だけ音声信号を遡って読み出して音声出力部に出力させて再生させるので、読上げられた音声信号を任意の時間長だけ遡って再生させることができる。

特開平５−２６００８２号公報

しかしながら、従来技術１では、聞き逃した単語を読み上げさせるためには、再度記事の一番最初から読み上げを開始していたため、必要な箇所をすぐに聞くことができないという問題があった。また、特許文献１に記載の技術では利用者が指示した時間長だけ遡って再生を行っているため、必要な箇所をすぐに再生することができるとは限らない。

そこで、本発明はこれらの問題を解決するためになされたもので、聞き逃し単語を再度読み上げさせる場合、必要な箇所をすぐに読み上げさせることのできる音声処理装置、音声処理方法及びプログラムを提供することを目的とする。

上記課題を解決するために、本発明は、読み上げ文を音声合成する音声合成部と、前記読み上げ文を読み上げ中に再度の読み上げが選択されたとき、前記読み上げ文中で前記再度の読み上げが選択された際の直前の文節から読み上げを開始するよう前記音声合成部を制御する制御部とを備える音声処理装置である。本発明によれば、聞き逃した単語を再度読み上げさせる場合、読み上げ文中で再度の読み上げが選択された際の直前の文節から読み上げを開始するので、必要な箇所をすぐに読み上げさせることができる。したがって、１番最初から読み上げさせる必要がなくなる。

前記制御部は、前記直前の文節から読み上げを開始する際に、前記直前の文節を読み上げる際の音量が大きくなるよう前記音声合成部を制御するのが好ましい。本発明によれば、聞き逃した単語について、大きい音量で読み上げを行うことで、再度の聞き逃しを防ぐことができる。前記制御部は、前記直前の文節から読み上げを開始する際に、前記直前の文節を読み上げる速度が遅くなるよう前記音声合成部を制御するのが好ましい。本発明によれば、聞き逃した単語について、ゆっくりと読み上げを行うことで、再度の聞き逃しを防ぐことができる。また、特許文献１に記載の技術では、同じ読み、アクセント又はイントネーションで再生を行うため、再度聞き逃してしまうという問題があったが、本発明では大きな音量やゆっくりと読み上げを行うようにすることで、再度の聞き逃しを防止することができる。

前記制御部は、前記直前の文節から読み上げを開始する際に、前記読み上げる直前の文節を意味がより詳しい文節となるよう読み上げ文を生成するのが好ましい。本発明は、前記音声処理装置を備えたナビゲーション装置である。これにより、必要な箇所をすぐに読み上げさせることができるナビゲーション装置を提供することができる。

本発明は、読み上げ文を音声合成するステップと、前記読み上げ文を読み上げ中に再度の読み上げを選択するステップと、前記読み上げ文中で前記再度の読み上げが選択された際の直前の文節から読み上げを開始するステップとを有する音声処理方法である。本発明によれば、聞き逃した単語を再度読み上げさせる場合、読み上げ文中で再度の読み上げが選択された際の直前の文節から読み上げを開始するので、必要な箇所をすぐに読み上げさせることができる。したがって、１番最初から読み上げさせる必要がなくなる。

本発明は、前記直前の文節から読み上げを開始する際に、前記直前の文節を読み上げる際の音量を大きくするステップをさらに有する音声処理方法である。本発明によれば、聞き逃した単語について、大きい音量で読み上げを行うことで、再度の聞き逃しを防ぐことができる。本発明は、前記直前の文節から読み上げを開始する際に、前記直前の文節を読み上げる速度を遅くするステップをさらに有する音声処理方法である。本発明によれば、聞き逃した単語について、ゆっくりと読み上げを行うことで、再度の聞き逃しを防ぐことができる。

本発明は、読み上げ文を音声合成するステップ、前記読み上げ文を読み上げ中に再度の読み上げが選択されたとき、前記読み上げ文中で前記再度の読み上げが選択された際の直前の文節から読み上げを開始するよう制御信号を生成するステップをコンピュータに実行させるためのプログラムである。本発明によれば、聞き逃した単語を再度読み上げさせる場合、読み上げ文中で再度の読み上げが選択された際の直前の文節から読み上げを開始するので、必要な箇所をすぐに読み上げさせることができる。したがって、１番最初から読み上げさせる必要がなくなる。

本発明によれば、聞き逃し単語を再度読み上げさせる場合、必要な箇所をすぐに読み上げることのできる音声処理装置、音声処理方法及びプログラムを提供できる。

以下、本発明を実施するための最良の形態について説明する。図１は、本発明の実施形態におけるナビゲーション装置の構成図である。図１に示すように、ナビゲーション装置１は、音声処理装置２、ディスプレイ３、発話スイッチ（ＳＷ）４、マイクロホン５及びスピーカ６を備える。このナビゲーション装置１は、聞き逃した文節を再度読み上げさせる機能を備える。ナビゲーション装置１は、例えば自車位置を検出して自車位置周辺の地図を表示し、利用者によって選択された目的地までの経路探索及び経路誘導等を行う機能を有する。また、音声処理装置２は、コンパクトディスクやミニディスク等の記録媒体に記録された音楽再生等を行うオーディオ装置内に組み込まれていてもよい。

発話スイッチ４は、利用者が音声処理装置２と対話を開始したり、利用者が音声処理装置２から出力される音声を再度聞きたい場合に押下げるボタンスイッチである。この発話スイッチ４が押下げられているときに、利用者が発話を行うと、音声認識部２１によって発話内容が認識される。マイクロホン５は、利用者が発声した音声を集音して音声信号に変換する。

音声処理装置２は、利用者が発声した音声に応答して対話形式で各種の動作指示を決定して出力する等の機能を実現する。音声処理装置２は、音声認識部２１、制御部２２及び音声合成部２３を備える。音声認識部２１は、発話スイッチ４が押下げ中に、マイクロホン５から出力される音声信号を解析して所定の音声認識処理を行い、利用者が発声した音声に対応する文字列を特定する。音声認識部２１は、通常の音声認識辞書と読み上げ時専用の音声認識辞書を用いて音声認識を行う。

制御部２２は、文字で書かれた日本語を音声に変換するために、単語の境界の検出とセグメンテーション（区分化）、単語の音素記号列への変換、音素の継続時間長、単語のアクセント、文イントネーション等の韻律情報の付与およびあらかじめ蓄えてある合成単位と規則による音声合成器の制御信号の生成の手順を行う。具体的には、制御部２２は、ニュース記事や地点情報等のように、利用者に対して出力する読み上げ文（案内文）を生成する。また、制御部２２は、利用者が発話スイッチ４を押下げることによって読み上げ文を読み上げ中に再度の読み上げが選択されたとき、読み上げ文中で再度の読み上げが選択された際の直前の文節から読み上げを開始するよう音声合成部２３を制御する。

制御部２２は、直前の文節から読み上げを開始する際に、直前の文節を読み上げる際の音量が大きくなるよう音声合成部２３を制御する。制御部２２は、直前の文節から読み上げを開始する際に、直前の文節を読み上げる速度が遅くなるよう音声合成部２３を制御する。さらに、制御部２２は、直前の文節から読み上げを開始する際に、読み上げる直前の文節を意味がより詳しい文節となるよう読み上げ文を生成するようにしても良い。

音声合成部２３は、制御部２２が生成した読み上げ文を音声合成してスピーカ６に出力する。ここで、音声合成の方式は、一般に録音編集方式、パラメータ編集方式、規則合成方式に分類される。録音編集方式は、人が発声した音声波形を、そのままあるいは波形符号化して蓄積しておき、必要に応じて繋ぎ合わせて出力するものである。パラメータ編集方式は、人が発声した音声波形を分析してパラメータに変換された形で蓄積しておき、それを繋ぎ合わせて音声合成器を駆動し、音声を作り出すものである。規則合成方式は、文字列あるいは音素記号列から、音声学的・言語学的規則に基づいて、音声を作り出すものである。

なお、音声合成の方式としてパラメータ編集方式を採用する場合には、制御部２３は、音声合成部２３へのパラメータを調整することによって、直前の文節から読み上げる機能、直前の文節を読み上げる際に音量が大きくなる機能、直前の文節を読み上げる速度を遅くする機能を実現する。スピーカ６は、音声合成部２３から入力される音声信号に基づいて読み上げ文を読み上げる。

次に、音声処理装置の動作を説明する。図２は音声処理装置の処理フローチャートである。利用者は発話スイッチ４を押下げて、「スタート」と発話する。音声認識部２１は、通常の音声認識辞書をメモリ上に展開し、認識結果を検索し、読み上げ文の読み上げ処理がスタートする。読み上げられた文中の「馬耳東風」という単語が読み上げられた場合、利用者がこの「馬耳東風」という単語が聞き取れなかったと仮定する。このとき、利用者は発話スイッチ４を押下げて、「もう一度」と発話して、「馬耳東風」という単語を読み上げるよう指示を行う。

ステップＳ１で、音声認識部２１は、読み上げ時専用の音声認識辞書をメモリ上に展開し、認識結果の検索を行う。ステップＳ２で、音声認識部２１は、認識結果がヒットしたかどうかを判断し、認識結果がヒットしないと判断した場合、ステップＳ３で、従来の音声認識辞書から検索を行って、ステップＳ４で、制御部２２は対応する処理を行う。

ステップＳ２で、音声認識部２２は、読み上げ時専用の音声認識辞書で認識結果がヒットしたと判断した場合、ステップＳ５で、制御部２２は、直前の文節から再度読み上げを開始すると共に、音声合成パラメータ調整を行って音量を大きくし、読み上げ速度を落すように音声合成部２３を制御する。ステップＳ６で、音声合成部２３は、直前の文節を読み上げる。これによって、再度の読み上げが選択されたときの直前の文節「馬耳東風」については、ボリュームアップおよびゆっくりと読み上げが行われる。ステップＳ７で、制御部２２は、大きくした音量をもとに戻し、落とした読み上げ速度を通常の速度に戻すよう音声合成パラメータを調整する。ステップＳ８で、制御部２２は、読み上げを継続するよう音声合成パラメータを調整する。音声合成部２３は、直前の文節以降は、通常のパラメータで読み上げを行う。

このように、再度の読み上げが選択されたときの直前の文節「馬耳東風」については、ボリュームアップおよびゆっくりと読み上げを行うことにより、必要な箇所をすぐに読み上げさせることができる。再度読み上げる文節については、大きい音量で読み上げを行うことで、再度の聞き逃しを防ぐことができる。また、再度読み上げる文節ついては、ゆっくりと読み上げを行うことで、再度の聞き逃しを防ぐことができる。

なお、音声処理装置２は、例えば、ＣＰＵ（Central Processing Unit）、ＲＯＭ(Read Only Memory)、ＲＡＭ(Random Access Memory)等を用いて実現される。プログラムをハードディスク装置や、ＣＤ−ＲＯＭ、ＤＶＤまたはフレキシブルディスクなどの可搬型記憶媒体等からインストールし、または通信回路からダウンロードし、ＣＰＵがこのプログラムを実行することで、本発明の各機能が実現される。このプログラムは、読み上げ文を音声合成するステップ、前記読み上げ文を読み上げ中に再度の読み上げが選択されたとき、前記読み上げ文中で前記再度の読み上げが選択された際の直前の文節から読み上げを開始するよう制御信号を生成するステップをコンピュータに実行させる。

以上、本発明の好ましい実施例について詳述したが、本発明は係る特定の実施例に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

本発明の実施形態におけるナビゲーション装置の構成図である。音声処理装置の処理フローチャートである。

符号の説明

１ナビゲーション装置
２音声処理装置
２１音声認識部
２２制御部
２３音声合成部
３ディスプレイ
４発話スイッチ
５マイクロホン

Claims

読み上げ文を音声合成する音声合成部と、
前記読み上げ文を読み上げ中に再度の読み上げが選択されたとき、前記読み上げ文中で前記再度の読み上げが選択された際の直前の文節から読み上げを開始するよう前記音声合成部を制御する制御部とを備えることを特徴とする音声処理装置。
前記制御部は、前記直前の文節から読み上げを開始する際に、前記直前の文節を読み上げる際の音量が大きくなるよう前記音声合成部を制御することを特徴とする請求項１に記載の音声処理装置。
前記制御部は、前記直前の文節から読み上げを開始する際に、前記直前の文節を読み上げる速度が遅くなるよう前記音声合成部を制御することを特徴とする請求項１に記載の音声処理装置。
前記制御部は、前記直前の文節から読み上げを開始する際に、前記読み上げる直前の文節を意味がより詳しい文節となるよう読み上げ文を生成することを特徴とする請求項１に記載の音声処理装置。
請求項１から請求項４のいずれか一項に記載の音声処理装置を備えたナビゲーション装置。
読み上げ文を音声合成するステップと、
前記読み上げ文を読み上げ中に再度の読み上げを選択するステップと、
前記読み上げ文中で前記再度の読み上げが選択された際の直前の文節から読み上げを開始するステップとを有することを特徴とする音声処理方法。
前記直前の文節から読み上げを開始する際に、前記直前の文節を読み上げる際の音量を大きくするステップをさらに有することを特徴とする請求項６に記載の音声処理方法。
前記直前の文節から読み上げを開始する際に、前記直前の文節を読み上げる速度を遅くするステップをさらに有することを特徴とする請求項６に記載の音声処理方法。
読み上げ文を音声合成するステップ、
前記読み上げ文を読み上げ中に再度の読み上げが選択されたとき、前記読み上げ文中で前記再度の読み上げが選択された際の直前の文節から読み上げを開始するよう制御信号を生成するステップをコンピュータに実行させるためのプログラム。