JP5976255B2

JP5976255B2 - 情報提供装置および情報提供方法

Info

Publication number: JP5976255B2
Application number: JP2016513527A
Authority: JP
Inventors: 政信大沢; 岡登　洋平; 洋平岡登
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-04-15
Filing date: 2014-04-15
Publication date: 2016-08-23
Anticipated expiration: 2034-04-15
Also published as: US20160365086A1; JPWO2015159363A1; WO2015159363A1; CN106233373B; DE112014006591B4; DE112014006591T5; US9734818B2; CN106233373A

Description

この発明は、音声合成用のテキスト情報を音声合成装置に提供する情報提供装置および情報提供方法に関するものである。

従来、音声合成装置へ入力されるテキスト中に、音響的に類似する聞き誤りやすい単語がある場合、合成音声の了解性が低くなるという問題があった。
特許文献１には、音声合成の対象となるテキスト中に発音的に類似した単語が存在する場合に、その単語の合成音声を生成する際に明瞭度の高い音声素片を用いることで了解性を向上させることが記載されている。しかし、この場合、明瞭度が高くなるだけであるため、騒音が大きくなる等した場合、聞き間違えてしまう可能性があった。

他方、特許文献２には、音声合成の対象となるテキスト中の単語を平易な別の表現に置換することが記載されている。

特開２０００−２０６９８２号公報特開平３−３５２９６号公報

特許文献１における問題を解決するために特許文献１，２を組み合わせて、テキスト中に発音的に類似した単語が存在する場合にその単語を別の表現に置換することが考えられる。しかし、置換後の表現とテキスト中の他の単語との関係を考慮していないため、かえって了解性が低い合成音声となってしまう場合があるという課題があった。

この発明は、上記のような課題を解決するためになされたもので、テキスト中の他の単語との関係を考慮して単語を置換することを目的とする。

この発明に係る情報提供装置は、テキスト情報を取得する取得部と、テキスト情報の中から音響的に類似する単語を検出する検出部と、単語毎に予め対応付けた同義語を記憶した記憶部と、検出部が検出した単語に対応する同義語であってテキスト情報の中に音響的に同一または類似する単語が存在しない同義語を、記憶部から選択する選択部と、検出部が検出した単語を選択部が選択した同義語に置換する置換部と、置換部が置換した後のテキスト情報を音声合成用テキスト情報として出力する出力部と備えるものである。

この発明に係る情報提供方法は、取得部が、テキスト情報を取得する取得ステップと、検出部が、テキスト情報の中から音響的に類似する単語を検出する検出ステップと、選択部が、単語毎に予め対応付けた同義語の中から、検出ステップで検出した単語に対応する同義語であってテキスト情報の中に音響的に同一または類似する単語が存在しない同義語を選択する選択ステップと、置換部が、検出ステップで検出した単語を選択ステップで選択した同義語に置換する置換ステップと、出力部が、置換ステップで置換した後のテキスト情報を音声合成用テキスト情報として出力する出力ステップとを備えるものである。

この発明によれば、テキスト情報の中に音響的に同一または類似する単語が存在しない同義語を選択して置換するようにしたので、了解性が高い合成音声を生成するための合成音声用テキスト情報を生成することができる。

この発明の実施の形態１に係る情報提供装置と音声合成装置の構成を示すブロック図である。実施の形態１の情報提供装置の記憶部が記憶している単語と同義語の例を示す図である。実施の形態１に係る情報提供装置の動作を示すフローチャートである。この発明の実施の形態２に係る情報提供装置の構成を示すブロック図である。実施の形態２に係る情報提供装置の動作を示すフローチャートである。

以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
図１は、実施の形態１に係る情報提供装置１と、当該情報提供装置１から出力された音声合成用テキスト情報を用いて合成音声を生成する音声合成装置１０の構成を示すブロック図である。この情報提供装置１は、ナビゲーション装置またはサーバ装置に適用してもよいし、タブレットＰＣ（パーソナルコンピュータ）、携帯電話等の携帯情報端末にインストールされるアプリケーションプログラムであってもよい。

情報提供装置１は、取得部２、解析部３、解析用辞書４、検出部５、記憶部６、選択部７、置換部８、および出力部９を備えている。
取得部２は、この情報提供装置１が行う処理の対象となるテキスト情報を外部から取得する。

解析部３は、解析用辞書４を参照して、取得部２により取得されたテキスト情報に対して形態素解析を行い、テキストを形態素に分解する。形態素解析の方法については周知の技術を用いればよいため説明は省略する。

検出部５は、解析部３による解析結果を用いて、テキスト情報の中から音響的に類似する単語を検出する。なお、音響的に類似するか否かを判断する方法は、周知の技術を用いればよいため詳細な説明は省略するが、例えば、ＣｏｎｆｕｓｉｏｎＭａｔｒｉｘを用いて音素同士の類似度を算出し、それらの類似度に基づいて単語同士の類似度を算出し判断する方法などがある。

記憶部６は、予め定義された単語と同義語とを対応付けて記憶している。
図２に、記憶部６が記憶している単語と同義語の例を示す。例えば、単語「添削」と同義語「訂正」および「手直し」とが対応付けられている。

選択部７は、検出部５により検出された単語に対応する同義語を、記憶部６から選択する。このとき選択部７は、解析部３による解析結果を用いて、テキスト情報の中に音響的に同一または類似する単語が存在しない同義語を選択する。
なお、選択部７は、上述した条件を満たす同義語の候補が複数ある場合に、音素数が少ないものを選択してもよい。音素数が少ない同義語は発音が短いので、合成音声として出力したときに騒音の中でも聞き取りやすく、了解性が良い。
さらに、選択部７は、検出部５により検出されたすべての単語について同義語を選択する必要はない。例えば、検出部５により類似する二つの単語が検出された場合、一方の単語に対する同義語を選択し、他方の単語については同義語の選択を行わなくてもよい。また例えば、類似する二つの単語に対応する二つの同義語のうち、音素数が少ない方の同義語を選択し、音素数が多い方の同義語は選択しなくてもよい。

置換部８は、取得部２により取得されたテキスト情報中に存在する、検出部５により検出された単語を、選択部７により選択された同義語に置換する。
出力部９は、置換部８により置換された後のテキスト情報を音声合成用テキスト情報として音声合成装置１０に出力する。

次に、音声合成装置１０について説明する。音声合成装置１０は、音声合成部１１および音声出力部１２を備えている。
音声合成部１１は、情報提供装置１が提供した音声合成用テキスト情報から合成音声を生成する。音声合成については周知の技術を用いればよいため説明を省略する。
音声出力部１２は、音声合成部１１により生成された合成音声を出力するよう、不図示のスピーカに対して指示する。

次に、図３に示すフローチャートと具体例を用いて、実施の形態１の情報提供装置１の動作を説明する。
ここでは、情報提供装置１による処理対象となるテキスト情報を「添削の際は、平成を検索して、昭和に置換してください。」とし、記憶部６は図２に示したデータを格納しているものとして説明する。

まず、取得部２は、処理の対象となるテキスト情報を取得する（ステップＳＴ１）。ここでは、上述したテキスト情報「添削の際は、平成を検索して、昭和に置換してください。」を取得する。

そして、解析部３は、解析用辞書４を参照して、取得部２により取得されたテキスト情報に対して形態素解析を行い、テキストを形態素に分解する（ステップＳＴ２）。続いて、検出部５は、解析部３による解析結果を用いて、テキスト情報の中から音響的に類似する単語を検出する（ステップＳＴ３）。
具体的には、検出部５は、音響的に類似している単語「添削（てんさく）」と「検索（けんさく）」を検出する。

その後、選択部７は、検出部５により検出された単語の同義語を記憶部６から選択する（ステップＳＴ４）。
ここでは、単語「添削」の同義語の候補は「訂正」と「手直し」であるが、同義語「訂正（ていせい）」とテキスト情報中の他の単語「平成（へいせい）」が音響的に類似していると判断し、選択部７は同義語「手直し」を選択する。

最後に、置換部８は、テキスト情報中に存在する検出部５により検出された単語を、選択部７により選択された同義語に置換し（ステップＳＴ５）、置換後の音声合成用テキスト情報を出力部９を介して音声合成装置１０へ出力する（ステップＳＴ６）。
具体的には、置換部８は、テキスト情報「添削の際は、平成を検索して、昭和に置換してください。」の中の「添削」を「手直し」に置換し、置換後のテキスト情報「手直しの際は、平成を検索して、昭和に置換してください。」を生成する。

なお、上記説明では、音響的に類似している単語「添削」と「検索」のうち、「添削」のみ同義語を選択したが、これに加えて「検索」の同義語も選択してもよい。
また、情報提供装置１による処理対象となるテキスト情報が１文であったが、２文以上であってもよい。同義語を選択する際に、２文以上の文章のまとまりの中で音響的な類似度の判断を行うことにより、文章間での了解性と整合性を高めた合成音声用テキスト情報を生成することができる。

以上より、実施の形態１によれば、情報提供装置１は、テキスト情報を取得する取得部２と、テキスト情報の中から音響的に類似する単語を検出する検出部５と、単語毎に予め対応付けた同義語を記憶した記憶部６と、検出部５が検出した単語に対応する同義語であってテキスト情報の中に音響的に同一または類似する単語が存在しない同義語を記憶部６から選択する選択部７と、検出部５が検出した単語を選択部７が選択した同義語に置換する置換部８と、置換部８が置換した後のテキスト情報を音声合成用テキスト情報として出力する出力部９とを備える構成にした。このため、了解性が高い合成音声を生成するための合成音声用テキスト情報を生成することができる。

また、実施の形態１によれば、選択部７は、同義語の候補が複数存在する場合、音素数が少ない同義語を選択するようにしたので、より了解性が高い合成音声を生成するための合成音声用テキスト情報を生成することができる。

実施の形態２．
図４は、実施の形態２に係る情報提供装置１の構成を示すブロック図である。図４において、図１および図２と同一または相当の部分については同一の符号を付し説明を省略する。実施の形態２の情報提供装置１は、新たに、取得部２が取得したテキスト情報を所定範囲毎に区切る区切部２０を備えている。ここで、所定範囲とは、文単位、段落単位、ファイル単位などであり、区切部２０は、取得部２により取得されたテキスト情報に付加されている付加情報に基づいて区切る。付加情報は、文の区切り、段落の区切りなどを示す情報である。

検出部５、選択部７および置換部８は、区切部２０により区切られたテキスト情報の所定範囲毎に処理を行う。
具体的には、検出部５は、解析部３による解析結果を用いて、テキスト情報の所定範囲の中から音響的に類似する単語を検出する。選択部７は、検出部５により検出された単語に対応する同義語を記憶部６から選択する際、テキスト情報の所定範囲の中に音響的に同一または類似する単語が存在しない同義語を選択する。置換部８は、テキスト情報の所定範囲に存在する検出部５により検出された単語を、選択部７により選択された同義語に置換する。出力部９は、置換された後のテキスト情報の所定範囲を、音声合成用テキスト情報として音声合成装置１０に出力する。

次に、図５に示すフローチャートと具体例を用いて、実施の形態２の情報提供装置１の動作を説明する。
まず、取得部２は、処理の対象となるテキスト情報を取得する（ステップＳＴ１）。区切部２０は、テキスト情報をその付加情報に基づいて、例えば２文ごとのまとまりに区切る（ステップＳＴ２０）。ここでは、区切部２０により２文に区切られたテキスト情報を「金色の石が５個、銀色の石が１個必要です。金色は英語でゴールド、銀色は英語でシルバーです。」とし、記憶部６は図２に示したデータを格納しているものとして説明する。

そして、解析部３は、解析用辞書４を参照して、区切部２０により区切られたテキスト情報の２文に対して形態素解析を行い、テキストを形態素に分解する（ステップＳＴ２）。続いて、検出部５は、解析部３による解析結果を用いて、テキスト情報の２文の中から音響的に類似する単語を検索する（ステップＳＴ３）。
具体的には、検出部５は、音響的に類似している単語「金色（きんいろ）」と「銀色（ぎんいろ）」を検出する。

その後、選択部７は、検出部５により検出された単語の同義語を記憶部６から選択する（ステップＳＴ４）。
ここでは、単語「金色」の同義語の候補は「ゴールド」と「こがね色」であるが、テキスト情報の２文中に単語「ゴールド」が存在するため、選択部７は同義語「こがね色」を選択する。同様にして選択部７は、単語「銀色」の同義語として「しろがね色」を選択する。

最後に、置換部８は、テキスト情報の２文中に存在する検出部５により検出された単語を、選択部７により選択された同義語に置換し（ステップＳＴ５）、置換後の音声合成用テキスト情報を出力部９を介して音声合成装置１０へ出力する（ステップＳＴ６）。
具体的には、置換部８は、テキスト情報の２文「金色の石が５個、銀色の石が１個必要です。金色は英語でゴールド、銀色は英語でシルバーです。」の中の「金色」を「こがね色」に置換し、「銀色」を「しろがね色」に置換し、置換後のテキスト情報「こがね色の石が５個、しろがね色の石が１個必要です。こがね色は英語でゴールド、しろがね色は英語でシルバーです。」を生成する。

以上より、実施の形態２によれば、情報提供装置１は、取得部２が取得したテキスト情報を２文以上のまとまり毎に区切る区切部２０を備え、検出部５は、区切部２０が区切ったまとまりの中から音響的に類似する単語を検出し、選択部７は、検出部５が検出した単語に対応する同義語であって区切部２０が区切ったまとまりの中に音響的に同一または類似する単語が存在しない同義語を記憶部６から選択するように構成した。このため、文意に関連性がある文章のまとまり単位で、了解性が高く、かつ、整合性がある合成音声を生成するための音声合成用テキスト情報を生成することができる。

なお、上記実施の形態１，２では、解析部３と解析用辞書４とによってテキストを形態素に分解したが、取得部２が取得するテキスト情報に予め形態素分析結果が含まれている場合には解析部３と解析用辞書４を省略可能である。

また、上記実施の形態１，２では日本語を例に挙げて説明したが、これに限らず、本発明を日本語以外の言語に適用してもよい。

上記以外にも、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、各実施の形態の任意の構成要素の変形、または各実施の形態の任意の構成要素の省略が可能である。

この発明に係る情報提供装置は、了解性の高い合成音声を生成するためのテキスト情報を生成することで、車両走行時の騒音などの周囲騒音の影響があっても了解性を確保できるので、カーナビゲーション用音声合成装置などにテキスト情報を提供するのに適している。

１情報提供装置、２取得部、３解析部、４解析用辞書、５検出部、６記憶部、７選択部、８置換部、１０音声合成装置、１１音声合成部、１２音声出力部、２０区切部。

Claims

音声合成用テキスト情報を音声合成装置に提供する情報提供装置において、
テキスト情報を取得する取得部と、
前記テキスト情報の中から音響的に類似する単語を検出する検出部と、
単語毎に予め対応付けた同義語を記憶した記憶部と、
前記検出部が検出した単語に対応する同義語であって前記テキスト情報の中に音響的に同一または類似する単語が存在しない同義語を、前記記憶部から選択する選択部と、
前記検出部が検出した単語を前記選択部が選択した同義語に置換する置換部と、
前記置換部が置換した後の前記テキスト情報を前記音声合成用テキスト情報として出力する出力部とを備えることを特徴とする情報提供装置。
前記取得部が取得したテキスト情報を２文以上のまとまり毎に区切る区切部を備え、
前記検出部は、前記区切部が区切ったまとまりの中から音響的に類似する単語を検出し、
前記選択部は、前記検出部が検出した単語に対応する同義語であって前記区切部が区切ったまとまりの中に音響的に同一または類似する単語が存在しない同義語を、前記記憶部から選択することを特徴とする請求項１記載の情報提供装置。
前記区切部は、前記テキスト情報に付加されている付加情報に基づいて区切ることを特徴とする請求項２記載の情報提供装置。
前記選択部は、同義語の候補が複数存在する場合、音素数が少ない同義語を選択することを特徴とする請求項１記載の情報提供装置。
情報提供装置が、音声合成用テキスト情報を音声合成装置に提供する情報提供方法において、
取得部が、テキスト情報を取得する取得ステップと、
検出部が、前記テキスト情報の中から音響的に類似する単語を検出する検出ステップと、
選択部が、単語毎に予め対応付けた同義語の中から、前記検出ステップで検出した単語に対応する同義語であって前記テキスト情報の中に音響的に同一または類似する単語が存在しない同義語を選択する選択ステップと、
置換部が、前記検出ステップで検出した単語を前記選択ステップで選択した同義語に置換する置換ステップと、
出力部が、前記置換ステップで置換した後の前記テキスト情報を前記音声合成用テキスト情報として出力する出力ステップとを備えることを特徴とする情報提供方法。