JP4762103B2 - 韻律統計モデル訓練方法及び装置、並びに韻律解析方法及び装置 - Google Patents
韻律統計モデル訓練方法及び装置、並びに韻律解析方法及び装置 Download PDFInfo
- Publication number
- JP4762103B2 JP4762103B2 JP2006276954A JP2006276954A JP4762103B2 JP 4762103 B2 JP4762103 B2 JP 4762103B2 JP 2006276954 A JP2006276954 A JP 2006276954A JP 2006276954 A JP2006276954 A JP 2006276954A JP 4762103 B2 JP4762103 B2 JP 4762103B2
- Authority
- JP
- Japan
- Prior art keywords
- pause
- token
- prosodic
- statistical model
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
Description
"Rule-learning based prosodic structure prediction", ZHAO Sheng, et al, Journal of Chinese Information Processing, Vol. 16, No. 5, 2002.9, PP.30-37。
Claims (33)
- 句読点付の複数の文を含む未加工コーパスを用いて韻律統計モデルを訓練するための方法であって、
前記未加工コーパス中の前記複数の文をそれぞれ複数のトークン列に変換するステップと、
各前記複数のトークン列に生じる各隣接トークンペアの頻度、及び前記各トークンペアの関連位置にて生じる休止を表す句読点の頻度を数えるステップと、
各隣接トークンペアの頻度及び句読点の頻度に基づいて、前記各トークンペアの前記関連位置における休止確率を計算するステップと、
前記トークンペア及びその関連位置における前記休止確率に基づいて前記韻律統計モデルを構成するステップと、を含む、方法。 - 前記各トークンペアの前記関連位置は、前記トークンペアの前後及び真中を含む、請求項1記載の韻律統計モデル訓練方法。
- 前記各トークンペアの前記関連位置にて休止確率を計算する前記ステップは、
前記トークンペアの頻度及び前記トークンペアの前に生じる休止を表す句読点の頻度に基づいて前記トークンペアの前の休止確率を計算するステップと、
前記トークンペアの頻度及び前記トークンペアの後に生じる休止を表す句読点の頻度に基づいて前記トークンペアの後の休止確率を計算するステップと、
前記トークンペアの頻度及び前記トークンペアの真中に生じる休止を表す句読点の頻度に基づいて前記トークンペアの真中の休止確率を計算するステップと、を含む、請求項2記載の韻律統計モデル訓練方法。 - 前記各トークンペアの前記関連位置における休止確率を計算する前記ステップは、
前記計算された休止確率にスムージング処理を行うことを更に含む、請求項1記載の韻律統計モデル訓練方法。 - 前記各トークンペアの前記関連位置における休止確率を計算する前記ステップは、
前記計算された休止確率にカットオフ処理を行うことを更に含む、請求項1記載の韻律統計モデル訓練方法。 - 前記トークンは、文字、単語、単語とスピーチの一部及び成句から選択されるいずれか一つの形式を取る、請求項1記載の韻律統計モデル訓練方法。
- 前記韻律統計モデルは、韻律統計モデルに係わる各トークン及び前記トークンに対応するトークンIDを記憶するトークン翻訳テーブルを含む、請求項1記載の韻律統計モデル訓練方法。
- 韻律解析の方法であって、
請求項1乃至10のいずれか一つの方法を用いて韻律統計モデルを訓練するステップと、
少なくとも一文を含む韻律解析のためのテキストを入力するステップと、
文をトークン列に変換するステップと、
前記韻律統計モデルに基づいて前記トークン列中の各休止位置の休止重みを計算するステップと、
前記計算された各休止位置の休止重みに従って、休止タグを挿入する休止位置を少なくとも一つ選択するステップと、を含む、方法。 - 前記トークンは、文字、単語、単語とスピーチの一部及び成句から選択されたいずれか一つの形式を取る、請求項11記載の韻律解析方法。
- 前記韻律統計モデルは、複数のトークンペア及び各前記複数のトークンペアの関連位置における休止確率を含み、前記トークンシーケンス中の各休止位置の休止重みを計算する前記ステップは、
韻律統計モデル中の対応するトークンペアの関連位置における休止確率に従って、前記トークン列中の各休止位置の休止重みを計算するステップを含む、請求項11記載の韻律解析方法。 - 休止位置は、前記トークン列の最初のトークンの後、又は前記トークン列の最後のトークンの前に設定されない、請求項13記載の韻律解析方法。
- 休止タグを挿入するため、少なくとも一つの休止位置を選択する前記ステップは、
休止位置の休止重みが既定閾値よりも高いことを条件に行われる、請求項11記載の韻律解析方法。 - 休止タグを挿入するため、少なくとも一つの休止位置を選択する前記ステップは、
休止位置の休止重みが既定閾値よりも高いこと、及び
二つの選択された休止位置間のトークン数が、別の既定閾値よりも大きいことを条件に行われる、請求項11記載の韻律解析方法。 - 句読点を有する複数の文を含む未加工コーパスを用いて、韻律統計モデルを訓練するための装置であって、
前記未加工コーパス中の前記複数の文をそれぞれ複数のトークン列に変換するトークン化ユニットと、
前記複数のトークンシーケンス中に生じる各隣接トークンペアの頻度、及び前記トークンペアの関連位置において生じる休止を表す句読点の頻度を数えるカウンタと、
各隣接トークンペアの頻度及び句読点の頻度に基づいて、前記各トークンペアの前記関連位置における休止確率を計算する休止確率計算機と、
前記トークンペア及びその関連位置における休止確率に基づいて、前記韻律統計モデルを構成する韻律統計モデルコンストラクタと、を含む、韻律統計モデル訓練装置。 - 前記各トークンペアの前記関連位置は、前記トークンペアの前後及び真中を含む、請求項18記載の韻律統計モデル訓練装置。
- 前記休止確率計算機は、前記トークンペアの頻度及び前記トークンペア前に生じる休止を表す句読点の頻度に基づいて、トークンペア前の休止確率を計算し、前記トークンペアの頻度及び前記トークンペア後に生じる休止を表す句読点の頻度に基づいて、前記トークンペア後の休止確率を計算し、前記トークンペアの頻度及び前記トークンペアの真中に生じる休止を表す句読点の頻度に基づいて、トークンペアの真中の休止確率を計算する、請求項19記載の韻律統計モデル訓練装置。
- 前記計算された休止確率に対しスムージング処理を行うスムージングユニットを更に含む、請求項18記載の韻律統計モデル訓練装置。
- 前記計算された休止確率に対しカットオフ処理を行うカットオフユニットを更に含む、請求項18記載の韻律統計モデル訓練装置。
- 前記トークンは、文字、単語、スピーチの一部込みの単語及び成句から選択されるいずれか一つの形式を取る、請求項18記載の韻律統計モデル訓練装置。
- 韻律解析のための装置であって、
少なくとも一文を含む韻律解析のためのテキストを入力するテキスト入力ユニットと、
文をトークン文に変換するトークン化ユニットと、
請求項18乃至26のいずれか一つの装置を用いて、未加工コーパスから訓練され、複数のトークンペア及び各前記複数のトークンペアの関連位置における休止確率を含む韻律統計モデルに基づいて、前記トークン文中の各休止位置の休止重みを計算する休止重み計算機と、
前記計算された各休止位置の休止重みに従って、休止タグを挿入する少なくとも一つの休止位置を選択する休止タグ設定ユニットと、を含む、韻律解析装置。 - 前記トークンは、文字、単語、スピーチの一部込みの単語及び成句から選択されるいずれか一つの形式を取る、請求項27記載の韻律解析装置。
- 前記休止重み計算機は、韻律統計モデル中の対応するトークンペアの関連位置における休止確率に従って、前記トークン列の各休止位置の休止重みを計算する、請求項27記載の韻律解析装置。
- 前記休止タグユニットは、前記トークン文の最初のトークンの後、或いは前記トークン文の最後のトークンの前に休止位置を設定しないように構成された、請求項29記載の韻律解析装置。
- 休止位置の休止重みが既定の閾値よりも高いことを条件に、前記休止タグ設定ユニットは、休止タグを挿入する少なくとも一つ以上の休止位置を選択する、請求項27記載の韻律解析装置。
- 休止位置の休止重みが既定の閾値よりも高いこと及び二つの選択された休止位置間のトークンの数が別の既定の閾値よりも大きいことを条件に、前記休止タグ設定ユニットは、休止タグを挿入する少なくとも一つ以上の休止位置を選択する、請求項27記載の韻律解析装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200510108186.3 | 2005-10-09 | ||
CN2005101081863A CN1945693B (zh) | 2005-10-09 | 2005-10-09 | 训练韵律统计模型、韵律切分和语音合成的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007108749A JP2007108749A (ja) | 2007-04-26 |
JP4762103B2 true JP4762103B2 (ja) | 2011-08-31 |
Family
ID=38034603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006276954A Active JP4762103B2 (ja) | 2005-10-09 | 2006-10-10 | 韻律統計モデル訓練方法及び装置、並びに韻律解析方法及び装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8024174B2 (ja) |
JP (1) | JP4762103B2 (ja) |
CN (1) | CN1945693B (ja) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4559950B2 (ja) * | 2005-10-20 | 2010-10-13 | 株式会社東芝 | 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム |
US8631005B2 (en) * | 2006-12-28 | 2014-01-14 | Ebay Inc. | Header-token driven automatic text segmentation |
CN101572083B (zh) * | 2008-04-30 | 2011-09-07 | 富士通株式会社 | 韵律词组词方法和装置 |
CA2680304C (en) * | 2008-09-25 | 2017-08-22 | Multimodal Technologies, Inc. | Decoding-time prediction of non-verbalized tokens |
CN102237081B (zh) * | 2010-04-30 | 2013-04-24 | 国际商业机器公司 | 语音韵律评估方法与系统 |
US9135231B1 (en) | 2012-10-04 | 2015-09-15 | Google Inc. | Training punctuation models |
CN103971684B (zh) * | 2013-01-29 | 2015-12-09 | 腾讯科技(深圳)有限公司 | 一种添加标点的方法、系统及其语言模型建立方法、装置 |
US9811517B2 (en) | 2013-01-29 | 2017-11-07 | Tencent Technology (Shenzhen) Company Limited | Method and system of adding punctuation and establishing language model using a punctuation weighting applied to chinese speech recognized text |
CN104143331B (zh) | 2013-05-24 | 2015-12-09 | 腾讯科技(深圳)有限公司 | 一种添加标点的方法和系统 |
JP5807921B2 (ja) * | 2013-08-23 | 2015-11-10 | 国立研究開発法人情報通信研究機構 | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム |
CN103761064A (zh) * | 2013-12-27 | 2014-04-30 | 圆展科技股份有限公司 | 自动语音输入系统及其方法 |
CN104021784B (zh) * | 2014-06-19 | 2017-06-06 | 百度在线网络技术(北京)有限公司 | 基于大语料库的语音合成方法和装置 |
US9953171B2 (en) * | 2014-09-22 | 2018-04-24 | Infosys Limited | System and method for tokenization of data for privacy |
US9542929B2 (en) | 2014-09-26 | 2017-01-10 | Intel Corporation | Systems and methods for providing non-lexical cues in synthesized speech |
US10388270B2 (en) | 2014-11-05 | 2019-08-20 | At&T Intellectual Property I, L.P. | System and method for text normalization using atomic tokens |
CN107247700A (zh) * | 2017-04-27 | 2017-10-13 | 北京捷通华声科技股份有限公司 | 一种添加文本标注的方法及装置 |
US20210133537A1 (en) * | 2017-11-30 | 2021-05-06 | Llsollu Co., Ltd. | Translation method and apparatus therefor |
CN109977424B (zh) * | 2017-12-27 | 2023-08-08 | 北京搜狗科技发展有限公司 | 一种机器翻译模型的训练方法及装置 |
CN110189354B (zh) * | 2019-04-18 | 2021-12-28 | 北京迈格威科技有限公司 | 图像处理方法与图像处理器、图像处理设备及介质 |
US11062693B1 (en) * | 2019-06-20 | 2021-07-13 | West Corporation | Silence calculator |
CN112349274A (zh) * | 2020-09-28 | 2021-02-09 | 北京捷通华声科技股份有限公司 | 一种训练韵律预测模型方法、装置、设备及存储介质 |
CN112786023A (zh) * | 2020-12-23 | 2021-05-11 | 竹间智能科技(上海)有限公司 | 标记模型构建方法及语音播报系统 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3704345A (en) * | 1971-03-19 | 1972-11-28 | Bell Telephone Labor Inc | Conversion of printed text into synthetic speech |
JPH0363767A (ja) * | 1989-08-01 | 1991-03-19 | Ricoh Co Ltd | テキスト音声合成装置 |
CA2119397C (en) * | 1993-03-19 | 2007-10-02 | Kim E.A. Silverman | Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation |
JP3690502B2 (ja) * | 2001-04-19 | 2005-08-31 | 日本電信電話株式会社 | 韻律情報設定方法及び装置並びにプログラム及び記録媒体 |
EP1422692A3 (en) * | 2002-11-22 | 2004-07-14 | ScanSoft, Inc. | Automatic insertion of non-verbalized punctuation in speech recognition |
US6961704B1 (en) * | 2003-01-31 | 2005-11-01 | Speechworks International, Inc. | Linguistic prosodic model-based text to speech |
JP2005031259A (ja) | 2003-07-09 | 2005-02-03 | Canon Inc | 自然言語処理方法 |
CN1271550C (zh) * | 2003-07-22 | 2006-08-23 | 中国科学院自动化研究所 | 口语会话中句子边界识别方法 |
US20050234724A1 (en) * | 2004-04-15 | 2005-10-20 | Andrew Aaron | System and method for improving text-to-speech software intelligibility through the detection of uncommon words and phrases |
-
2005
- 2005-10-09 CN CN2005101081863A patent/CN1945693B/zh active Active
-
2006
- 2006-10-06 US US11/539,434 patent/US8024174B2/en active Active
- 2006-10-10 JP JP2006276954A patent/JP4762103B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2007108749A (ja) | 2007-04-26 |
CN1945693B (zh) | 2010-10-13 |
US20070129938A1 (en) | 2007-06-07 |
CN1945693A (zh) | 2007-04-11 |
US8024174B2 (en) | 2011-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4762103B2 (ja) | 韻律統計モデル訓練方法及び装置、並びに韻律解析方法及び装置 | |
KR102540774B1 (ko) | 서브워드 임베딩 및 스킵서트 기반 문장 임베딩 방법 및 장치 | |
JP6493866B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN109887497B (zh) | 语音识别的建模方法、装置及设备 | |
US7966173B2 (en) | System and method for diacritization of text | |
JP3768205B2 (ja) | 形態素解析装置、形態素解析方法及び形態素解析プログラム | |
KR20180121831A (ko) | 흥미 판정 장치, 흥미 판정 방법, 및 기억 매체 | |
CN113327574B (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
CN117980991A (zh) | 利用约束谱聚类的基于说话者转换的在线说话者日志化 | |
CN110852075B (zh) | 自动添加标点符号的语音转写方法、装置及可读存储介质 | |
US11694028B2 (en) | Data generation apparatus and data generation method that generate recognition text from speech data | |
Chennoufi et al. | Impact of morphological analysis and a large training corpus on the performances of Arabic diacritization | |
JP2020064370A (ja) | 文章記号挿入装置及びその方法 | |
JP6082657B2 (ja) | ポーズ付与モデル選択装置とポーズ付与装置とそれらの方法とプログラム | |
KR20210051523A (ko) | 도메인 자동 분류 대화 시스템 | |
Coto‐Solano | Computational sociophonetics using automatic speech recognition | |
CN114974218A (zh) | 语音转换模型训练方法及装置、语音转换方法及装置 | |
Zine et al. | Towards a high-quality lemma-based text to speech system for the arabic language | |
JP5888723B2 (ja) | 発音辞書作成装置、発音辞書の生産方法、およびプログラム | |
JP4674609B2 (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
CN111090720A (zh) | 一种热词的添加方法和装置 | |
JP2020064630A (ja) | 文章記号挿入装置及びその方法 | |
JP2008305291A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US20180033425A1 (en) | Evaluation device and evaluation method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080327 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100916 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101012 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101210 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110510 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110607 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140617 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4762103 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140617 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |