JP2015215626A - 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム - Google Patents
文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム Download PDFInfo
- Publication number
- JP2015215626A JP2015215626A JP2015134708A JP2015134708A JP2015215626A JP 2015215626 A JP2015215626 A JP 2015215626A JP 2015134708 A JP2015134708 A JP 2015134708A JP 2015134708 A JP2015134708 A JP 2015134708A JP 2015215626 A JP2015215626 A JP 2015215626A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- document
- speech
- feature
- document reading
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
第1の実施形態の文書読み上げ支援装置は、複数の文から抽出した情報を利用して各文を音声波形に変換する際の発話スタイルを推定する。まず、文書読み上げ支援装置は、各文のテキスト表記から素性(そせい)情報を抽出する。素性情報は、文に対して形態素解析や係り受け解析を適用して抽出した品詞や係り受け等の文法情報を表している。次に、文書読み上げ支援装置は、読み上げ対象となる文およびその前後に隣接する文から抽出した素性情報を利用して、感情、口調、性別、年齢などの発話スタイルを推定する。発話スタイルの推定には、予め学習したモデル(発話スタイル推定モデル)と複数文の素性情報との照合結果を用いる。最後に、文書読み上げ支援装置は、当該発話スタイルに適合する音声合成のパラメータ(例えば、音声キャラクタ、音量、話速、ピッチなど)を選択して音声合成器に出力する。
図1は、第1の実施形態にかかる文書読み上げ支援装置を示すブロック図である。本実施形態の文書読み上げ支援装置は、予め学習した発話スタイル推定モデルを格納するHDD(Hard Disk Drive)等のモデル格納部105と、文書を取得する文書取得部101と、前記文書取得部101で取得された文書の各文から素性情報を抽出する素性情報抽出部102と、読み上げ対象となる文およびその前後に隣接する複数の文から抽出した素性情報とモデル格納部105に格納された発話スタイル推定モデルとを照合して、前記各文を音声波形に変換する際の発話スタイルを推定する発話スタイル推定部103と、前記発話スタイル推定部103で選択された発話スタイルに適合する音声合成のパラメータ選択する合成パラメータ選択部104とを備える。
図2は、本実施形態にかかる文書読み上げ支援装置のフローチャートである。
図3のフローチャートを参照して、文書の各文から素性情報を抽出するステップS22の詳細を説明する。なお、ここでの説明は、ステップS21においてプレーンテキスト形式の文書が入力されたものとして行う。
ステップS33の固有表現抽出処理では、形態素解析結果である品詞列や文字列の出現パターンを利用して、一般的な人名(姓・名)や地名、組織名、数量・金額・日付表現などを抽出する。出現パターンは、手作業で作成するほか、学習用の文書をもとに特定の固有表現が出現する条件を学習して作成することができる。抽出結果は、固有表現ラベル(人名や場所など)とそれに対応する文字列のペアから成る。また、このステップでは、カギカッコ(「」)などの情報から文タイプを抽出することもできる。
図5のフローチャートを参照して、複数文の素性情報から発話スタイルを推定するステップS23の詳細を説明する。
図10のフローチャートを参照して、推定された発話スタイルに適合した音声合成のパラメータを選択するステップS24の詳細を説明する。
最後に、図2のステップS25では、端末上の音声合成器あるいはweb経由でアクセスできるSaaS型の音声合成器に、音声キャラクタと各読み上げ対象文を対応付けて出力する。図12(b)の例の場合、ID1、ID3、ID4、ID6の文には音声キャラクタ「Taro」が、ID2、ID5、ID7の文には音声キャラクタ「Hana」が対応付けられており、音声合成器は、それぞれの文に応じた音声キャラクタを用いてこれらのテキストを音声波形に変換する。
このように、本実施形態にかかる文書読み上げ支援装置は、文書に含まれる複数の文から抽出した素性情報を利用して、読み上げ対象となる文の発話スタイルを推定している。これにより、文脈を考慮した発話スタイルを推定することができる。
以上の実施形態では、音声合成のパラメータとして音声合成のキャラクタを選択したが、音量、話速、ピッチなどを音声合成のパラメータとして選択することもできる。図14に、図8の発話スタイルに対して選択した音声合成のパラメータを示す。この例では、予め準備した所定のヒューリスティックを用いて音声合成のパラメータを付与している。例えば、音声キャラクタについては、発話スタイルの性別が「男」の文には「Taro」を、「女」の文には「Hana」を、その他の文には「Jane」を一律に付与することをルールとして持つことができる。また、音量については、感情が「恥」の文は「小さく」、「怒」の文は「大きく」、それ他の文は「ノーマル」のように選択することができる。この他にも、感情が「恥」の文は、話速を「速く」かつピッチを「高く」のような選択をすることができる。音声合成器は、これら選択された音声合成のパラメータを利用して各文を音声波形に変換する。
文書取得部101が取得した文書がXMLやHTMLである場合は、各文に対応付けられている要素名(タグ名)や属性名、属性値など、文書の論理要素に関する書式情報を素性情報の一つとして抽出することができる。例えば、同じ「はじめに」という文字列でも、「はじめに」「はじめに」などの大見出し、「はじめに」「はじめに」などの見出し・箇条書きリスト、「はじめに」などの引用タグ、などの節構造の本文に相当する場合がある。このように、書式情報を素性情報として抽出することにより、各文の状況に応じた発話スタイルを推定することができる。
以上の実施形態では、発話スタイル推定モデルをNeuralNetworkやSVM、CRFなどで学習したが、学習方法はこれに限られない。例えば、素性情報の「文タイプ」が「地の文」である場合の「感情」は「平(感情なし)」、のようなヒューリスティックを学習用の文書から決定してもよい。
102 素性情報抽出部
103 発話スタイル推定部
104 合成パラメータ選択部
105 モデル格納部
601 副詞の蓄積データ
1201 プルダウンメニュー
1305 第1のベクトル
1306 第2のベクトル
Claims (8)
- 学習用の文書から抽出された複数文の素性ベクトルと発話スタイルの対応付けを学習したモデルを格納するモデル格納手段と、
読み上げ対象となる文書を取得する文書取得手段と、
前記文書取得手段で取得された文書の各文から品詞、文タイプ及び文法情報を含む素性情報を抽出し、当該素性情報を素性ベクトルへ変換する素性情報抽出手段と、
前記素性情報抽出手段で抽出された、読み上げ対象となる文及び当該文の前後に隣接する文の各素性ベクトルを連結した連結素性ベクトルと、前記モデル格納手段に格納されたモデルとを照合して、前記読み上げ対象となる文の発話スタイルを推定する発話スタイル推定手段と、
を備える文書読み上げ支援装置。 - 前記発話スタイル推定手段は、前記読み上げ対象となる文の素性ベクトルと、当該文の前後に隣接する文の各素性ベクトルとを連結する前記請求項1記載の文書読み上げ支援装置。
- 前記素性ベクトルが、前記文書から抽出した書式情報を含む請求項1又は請求項2に記載の文書読み上げ支援装置。
- 前記発話スタイルが、性別、年齢、口調、感情のうちの少なくとも1つまたはその組み合わせである請求項1から請求項3の何れか1項に記載の文書読み上げ支援装置。
- 前記発話スタイル推定手段で推定された発話スタイルに適合する音声合成のパラメータを選択する合成パラメータ選択手段を更に備える請求項1から請求項4の何れか1項に記載の文書読み上げ支援装置。
- 前記合成パラメータ選択手段で選択される合成パラメータが、音声キャラクタ、音量、話速、ピッチのうちの少なくとも1つまたはその組み合わせである請求項5記載の文書読み上げ支援装置。
- 読み上げ対象となる文書を取得する文書取得工程と、
前記文書取得工程で取得した文書の各文から品詞、文タイプ及び文法情報を含む素性情報を抽出し、当該素性情報を素性ベクトルへ変換する素性情報抽出工程と、
前記素性情報抽出工程で抽出した、読み上げ対象となる文及び当該文の前後に隣接する文の各素性ベクトルを連結した連結素性ベクトルと、学習用の文書から抽出した複数文の素性ベクトルと発話スタイルの対応付けを学習したモデルとを照合して、前記読み上げ対象となる文の発話スタイルを推定する発話スタイル推定工程と、
を備える文書読み上げ支援方法。 - 文書読み上げ支援装置に、
読み上げ対象となる文書を取得する文書取得工程と、
前記文書取得工程で取得した文書の各文から品詞、文タイプ及び文法情報を含む素性情報を抽出し、当該素性情報を素性ベクトルへ変換する素性情報抽出工程と、
前記素性情報抽出工程で抽出した、読み上げ対象となる文及び当該文の前後に隣接する文の各素性ベクトルを連結した連結素性ベクトルと、学習用の文書から抽出した複数文の素性ベクトルと発話スタイルの対応付けを学習したモデルとを照合して、前記読み上げ対象となる文の発話スタイルを推定する発話スタイル推定工程と、
を実現させるための文書読み上げ支援プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015134708A JP2015215626A (ja) | 2015-07-03 | 2015-07-03 | 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015134708A JP2015215626A (ja) | 2015-07-03 | 2015-07-03 | 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011060702A Division JP2012198277A (ja) | 2011-03-18 | 2011-03-18 | 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015215626A true JP2015215626A (ja) | 2015-12-03 |
Family
ID=54752505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015134708A Pending JP2015215626A (ja) | 2015-07-03 | 2015-07-03 | 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015215626A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018180459A (ja) * | 2017-04-21 | 2018-11-15 | 株式会社日立超エル・エス・アイ・システムズ | 音声合成システム、音声合成方法、及び音声合成プログラム |
JP2019511036A (ja) * | 2016-02-09 | 2019-04-18 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 複数レイヤの単語表現にわたる言語特徴生成のためのシステム及び方法 |
JP2019208138A (ja) * | 2018-05-29 | 2019-12-05 | 住友電気工業株式会社 | 発話認識装置、及びコンピュータプログラム |
KR20200004176A (ko) * | 2018-07-03 | 2020-01-13 | 주식회사 한글과컴퓨터 | 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치 및 그 동작 방법 |
KR20200004175A (ko) * | 2018-07-03 | 2020-01-13 | 주식회사 한글과컴퓨터 | 선택적 음성 모델의 적용이 가능한 텍스트 음성 변환 장치 및 그 동작 방법 |
CN113327572A (zh) * | 2021-06-02 | 2021-08-31 | 清华大学深圳国际研究生院 | 基于情感类别标签的可控情感语音合成方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08248971A (ja) * | 1995-03-09 | 1996-09-27 | Hitachi Ltd | テキスト朗読読み上げ装置 |
JPH11296193A (ja) * | 1998-04-06 | 1999-10-29 | Casio Comput Co Ltd | 音声合成装置 |
JP2003302992A (ja) * | 2002-04-11 | 2003-10-24 | Canon Inc | 音声合成方法及び装置 |
-
2015
- 2015-07-03 JP JP2015134708A patent/JP2015215626A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08248971A (ja) * | 1995-03-09 | 1996-09-27 | Hitachi Ltd | テキスト朗読読み上げ装置 |
JPH11296193A (ja) * | 1998-04-06 | 1999-10-29 | Casio Comput Co Ltd | 音声合成装置 |
JP2003302992A (ja) * | 2002-04-11 | 2003-10-24 | Canon Inc | 音声合成方法及び装置 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019511036A (ja) * | 2016-02-09 | 2019-04-18 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 複数レイヤの単語表現にわたる言語特徴生成のためのシステム及び方法 |
JP2018180459A (ja) * | 2017-04-21 | 2018-11-15 | 株式会社日立超エル・エス・アイ・システムズ | 音声合成システム、音声合成方法、及び音声合成プログラム |
JP2019208138A (ja) * | 2018-05-29 | 2019-12-05 | 住友電気工業株式会社 | 発話認識装置、及びコンピュータプログラム |
KR20200004176A (ko) * | 2018-07-03 | 2020-01-13 | 주식회사 한글과컴퓨터 | 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치 및 그 동작 방법 |
KR20200004175A (ko) * | 2018-07-03 | 2020-01-13 | 주식회사 한글과컴퓨터 | 선택적 음성 모델의 적용이 가능한 텍스트 음성 변환 장치 및 그 동작 방법 |
KR102107445B1 (ko) * | 2018-07-03 | 2020-06-02 | 주식회사 한글과컴퓨터 | 선택적 음성 모델의 적용이 가능한 텍스트 음성 변환 장치 및 그 동작 방법 |
KR102107447B1 (ko) * | 2018-07-03 | 2020-06-02 | 주식회사 한글과컴퓨터 | 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치 및 그 동작 방법 |
CN113327572A (zh) * | 2021-06-02 | 2021-08-31 | 清华大学深圳国际研究生院 | 基于情感类别标签的可控情感语音合成方法及系统 |
CN113327572B (zh) * | 2021-06-02 | 2024-02-09 | 清华大学深圳国际研究生院 | 基于情感类别标签的可控情感语音合成方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2012198277A (ja) | 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム | |
JP2015215626A (ja) | 文書読み上げ支援装置、文書読み上げ支援方法および文書読み上げ支援プログラム | |
US9330657B2 (en) | Text-to-speech for digital literature | |
US20210158795A1 (en) | Generating audio for a plain text document | |
CN102549652B (zh) | 信息检索装置 | |
CN101996232B (zh) | 信息处理装置和用于处理信息的方法 | |
JP5141695B2 (ja) | 記号挿入装置および記号挿入方法 | |
EP3616190A1 (en) | Automatic song generation | |
JP2009037633A (ja) | 規模調整可能なニューラルネットワーク・ベースの、文書テキストからの言語同定 | |
KR101160193B1 (ko) | 감성적 음성합성 장치 및 그 방법 | |
WO2018200268A1 (en) | Automatic song generation | |
EP1221693A2 (en) | Prosody template matching for text-to-speech systems | |
CN109326280B (zh) | 一种歌唱合成方法及装置、电子设备 | |
JP2009223463A (ja) | 同義性判定装置、その方法、プログラム及び記録媒体 | |
TW201822190A (zh) | 語音辨識系統及其方法、詞彙建立方法與電腦程式產品 | |
CN104750677A (zh) | 语音传译装置、语音传译方法及语音传译程序 | |
North et al. | Deep learning approaches to lexical simplification: A survey | |
CN109492126B (zh) | 一种智能交互方法及装置 | |
CN111611793B (zh) | 数据处理方法、装置、设备及存储介质 | |
JP6232358B2 (ja) | 次発話候補ランキング装置、方法、及びプログラム | |
JP2021131514A (ja) | データ生成装置、データ生成方法およびプログラム | |
CN112905835B (zh) | 一种多模态乐曲标题生成方法、装置及存储介质 | |
JP5248121B2 (ja) | 愛称を推定する装置、方法およびプログラム | |
JP6574469B2 (ja) | 次発話候補ランキング装置、方法、及びプログラム | |
Dinarelli et al. | Concept segmentation and labeling for conversational speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160727 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160805 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160926 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170113 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20170220 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20170707 |