JP6441177B2 - PAUSE LENGTH DETERMINING DEVICE, PAUSE LENGTH DETERMINING METHOD, AND PROGRAM - Google Patents

PAUSE LENGTH DETERMINING DEVICE, PAUSE LENGTH DETERMINING METHOD, AND PROGRAM Download PDF

Info

Publication number
JP6441177B2
JP6441177B2 JP2015149184A JP2015149184A JP6441177B2 JP 6441177 B2 JP6441177 B2 JP 6441177B2 JP 2015149184 A JP2015149184 A JP 2015149184A JP 2015149184 A JP2015149184 A JP 2015149184A JP 6441177 B2 JP6441177 B2 JP 6441177B2
Authority
JP
Japan
Prior art keywords
sentence
length
pose
document
pause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015149184A
Other languages
Japanese (ja)
Other versions
JP2017032621A (en
Inventor
秀治 中嶋
秀治 中嶋
宮崎 昇
昇 宮崎
阪内 澄宇
澄宇 阪内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015149184A priority Critical patent/JP6441177B2/en
Publication of JP2017032621A publication Critical patent/JP2017032621A/en
Application granted granted Critical
Publication of JP6441177B2 publication Critical patent/JP6441177B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

この発明は、音声合成技術に関し、特に、合成音声の文間に挿入されるポーズの長さを制御する技術に関する。   The present invention relates to a speech synthesis technique, and more particularly to a technique for controlling the length of a pause inserted between sentences of synthesized speech.

例えば、介護担当者は、高齢者へ話しかける場合には、ゆっくりと話しかけるように指導されている(例えば、非特許文献1参照)。それによって、高齢者の理解が容易な形での話しかけが実現される。これと同様に、計算機等によって生成される合成音声の速度も、文ごとにゆっくりとした速度で読み上げることが望ましいと考えられる。しかしながら、文間の無音区間(いわゆるポーズ)の長さの具体的な制御方法は明らかではない。   For example, a caregiver is instructed to speak slowly when talking to an elderly person (see, for example, Non-Patent Document 1). As a result, the conversation in a form that is easy for the elderly to understand is realized. Similarly, it may be desirable to read out the synthesized speech generated by a computer or the like at a slower rate for each sentence. However, a specific method for controlling the length of silent intervals (so-called pauses) between sentences is not clear.

文間のポーズの長さを制御する技術として、文内の言葉の部分をゆっくりと再生する一方で、言葉と言葉の間のポーズを短くして再生する話速変換技術が存在する(例えば、非特許文献2参照)。   As a technique for controlling the length of pauses between sentences, there is a speech speed conversion technique that slowly reproduces the part of a word in a sentence while shortening the pause between words (for example, Non-patent document 2).

亀口憲治監修、“高齢者コミュニケータ講座テキスト”、初版、株式会社ニチイ学館、平成25年11月Supervised by Kenji Kameguchi, “Elderly Communicator Course Text”, first edition, Nichii Gakukan Co., Ltd., November 2013 日本放送協会、“ワンポイント基礎知識”、“話速変換”、[online]、[平成27年7月20日検索]、インターネット〈URL:http://www.nhk.or.jp/strl/onepoint/wasoku.html〉Japan Broadcasting Corporation, “One-point basic knowledge”, “Speaking speed conversion”, [online], [Search on July 20, 2015], Internet <URL: http://www.nhk.or.jp/strl/ onepoint / wasoku.html>

しかしながら、非特許文献2に記載された話速変換技術は、音声を放送時間の制限の範囲に収めるための技術であるため、高齢者向けに話された音声において文間ポーズの長さを制御する場合には適切ではない。他には、文間ポーズの長さを音声区間と同様の比率で伸縮することも考えられるが、必ずしも高齢者の理解が容易な音声になるとは限らず適切ではない。   However, since the speech speed conversion technique described in Non-Patent Document 2 is a technique for keeping the voice within the limit of the broadcast time, it controls the length of the sentence pause in the voice spoken for the elderly. It is not appropriate if you want to. In addition, it is conceivable that the length of the pause between sentences is expanded or contracted at the same ratio as that of the speech section, but it is not always appropriate because the speech is not easily understood by the elderly.

この発明は、このような点に鑑みて、文書の構造に基づいて文間ポーズの長さを適切に制御できるポーズ長制御技術を提供することを目的とする。   In view of the above, an object of the present invention is to provide a pause length control technique capable of appropriately controlling the length of a pause between sentences based on a document structure.

上記の課題を解決するために、この発明のポーズ長制御装置は、入力された文間種別に応じて文間ポーズの長さを伸縮するための制御情報を出力する文間ポーズ長伸縮モデルを記憶するモデル記憶部と、入力文書に含まれる各文の文間ごとに文書構造に基づいて定まる文間種別を決定する文書構造解析部と、入力文書に基づいて合成音声を生成し、各文間に対応するポーズの長さを基準ポーズ長として得る音声合成部と、入力文書の文間種別を入力として文間ポーズ長伸縮モデルが出力した制御情報に基づいて基準ポーズ長を伸縮することで合成音声の各文間に対応するポーズの長さを決定する文間ポーズ長決定部と、を含む。   In order to solve the above-described problem, the pause length control device of the present invention provides a sentence pause length expansion / contraction model that outputs control information for expanding / contracting the length of sentence pause according to the input sentence classification. A model storage unit for storing, a document structure analysis unit for determining an inter-sentence type determined based on the document structure for each sentence of each sentence included in the input document, and a synthesized speech is generated based on the input document. A speech synthesizer that obtains the length of the corresponding pose as the reference pose length, and the reference pose length is expanded and contracted based on the control information output by the sentence pose length expansion / contraction model with the sentence type of the input document as input. An inter-sentence pause length determining unit that determines the length of a pause corresponding to each sentence of the synthesized speech.

この発明によれば、文書の構造に基づいて文間ポーズの長さを適切に制御できる。その結果、ポーズの存在と長さによって文書の構造を聞き手に伝えることができ、より高い理解を与えることが可能となる。   According to the present invention, it is possible to appropriately control the length of the pause between sentences based on the document structure. As a result, the structure of the document can be communicated to the listener by the presence and length of the pose, and a higher understanding can be given.

図1は、ポーズ長制御装置の機能構成を例示する図である。FIG. 1 is a diagram illustrating a functional configuration of the pause length control apparatus. 図2は、ポーズ長制御方法の処理フローを例示する図である。FIG. 2 is a diagram illustrating a processing flow of the pause length control method. 図3は、文書構造解析部が出力する文間種別の具体例を示す図である。FIG. 3 is a diagram illustrating a specific example of the inter-sentence type output by the document structure analysis unit.

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。   Hereinafter, embodiments of the present invention will be described in detail. In addition, the same number is attached | subjected to the component which has the same function in drawing, and duplication description is abbreviate | omitted.

実施形態のポーズ長制御装置は、図1に示すように、音声合成の対象とする文書を入力とし、入力文書から生成した合成音声における文間ポーズ長を出力する装置である。ポーズ長制御装置1は、モデル記憶部10、文書構造解析部11、音声合成部12、および文間ポーズ長決定部13を含む。このポーズ長制御装置1が後述する各ステップの処理を行うことにより実施形態のポーズ長制御方法が実現される。   As shown in FIG. 1, the pause length control apparatus according to the embodiment is an apparatus that receives a text to be synthesized as an input and outputs the pause length between sentences in synthesized speech generated from the input document. The pause length control device 1 includes a model storage unit 10, a document structure analysis unit 11, a speech synthesis unit 12, and an inter-sentence pause length determination unit 13. The pause length control method 1 of the embodiment is realized by the pause length control device 1 performing processing of each step described later.

ポーズ長制御装置1は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。ポーズ長制御装置1は、例えば、中央演算処理装置の制御のもとで各処理を実行する。ポーズ長制御装置1に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、ポーズ長制御装置1の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。ポーズ長制御装置1の各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。   The pause length control device 1 is configured, for example, by loading a special program into a known or dedicated computer having a central processing unit (CPU), a main storage (RAM), and the like. It is a special device. For example, the pause length control device 1 executes each process under the control of the central processing unit. The data input to the pause length control device 1 and the data obtained in each process are stored in, for example, the main storage device, and the data stored in the main storage device is read out as needed for other processing. Used. Further, at least a part of each processing unit of the pause length control apparatus 1 may be configured by hardware such as an integrated circuit. Each storage unit of the pause length control device 1 is, for example, a main storage device such as a RAM (Random Access Memory), an auxiliary storage device configured by a semiconductor memory element such as a hard disk, an optical disk, or a flash memory, or It can be configured with middleware such as a relational database or key-value store.

図2を参照して、実施形態のポーズ長制御方法の処理手続きを説明する。   A processing procedure of the pause length control method of the embodiment will be described with reference to FIG.

モデル記憶部10には、入力された文間種別に応じて文間ポーズの長さを伸縮するための制御情報を出力する文間ポーズ長伸縮モデルが記憶されている。文間種別とは、連続する二つの文の文間ごとに、前後の文の種類および文間における改行の有無によって定まる、文書構造を表す情報である。実施形態の文間ポーズ長伸縮モデルは、例えば、高齢者に聞き取りやすいように文間ポーズ長を伸縮するための伸縮倍率とバイアス項を有するモデルである。例えば、伸縮前のポーズ長をx、伸縮後のポーズ長をyとして、y=a1×x+b1の線形式で表すことができる。ここで、a1が伸縮倍率であり、b1がバイアス項である。また、文間種別を変数として文間ポーズ長の伸縮倍率を切り替えたり、文間ポーズ長として固定値を与えたりするモデルであってもよい。   The model storage unit 10 stores a sentence pause length expansion / contraction model that outputs control information for expanding / contracting the length of the sentence pause according to the input sentence classification. The inter-sentence type is information representing the document structure that is determined by the type of preceding and succeeding sentences and the presence or absence of line breaks between the sentences for every two consecutive sentences. The inter-text pose length expansion / contraction model of the embodiment is, for example, a model having an expansion / contraction magnification and a bias term for expanding / contracting the inter-text pose length so that the elderly can easily hear. For example, the pose length before expansion / contraction can be expressed in a line format of y = a1 × x + b1, where x is the pose length after expansion / contraction and y. Here, a1 is the expansion / contraction magnification and b1 is the bias term. Alternatively, a model may be used in which the expansion / contraction magnification of the inter-sentence pose length is switched using the inter-sentence type as a variable, or a fixed value is given as the inter-sentence pose length.

ポーズ長制御装置に入力される文書は、例えば、図を含まず、複数の文とそのレイアウトによって構成されるテキスト文書である。入力文書には複数の文が含まれており、文内や文末には句読点が存在する。入力文書には箇条書きが含まれていてもよく、一般的に用いられる行頭記号(例えば、中黒「・」など)を用いて各項目が記述されている。ここでは、ひと続きの文は改行なく連続して記述されているものとする。   The document input to the pause length control device is, for example, a text document including a plurality of sentences and their layouts without including a figure. The input document includes a plurality of sentences, and there are punctuation marks in the sentence and at the end of the sentence. The input document may include bullets, and each item is described using a bullet (for example, “•” or the like) that is generally used. Here, it is assumed that a series of sentences are described continuously without line breaks.

ステップS1において、文書構造解析部11は、入力文書に含まれる各文の文間ごとに、文書構造に基づいて定まる文間種別を決定する。具体的には、まず、入力文書に含まれる文部分を決定し、連続する文の間に文間部分が存在すると決定する。例えば、行頭が箇条書きの記号以外の文字から始まり、句点で終わる範囲を“通常文1”と決定する。“通常文1”の後に改行が無く、箇条書きの記号以外の文字が続き、次の句点で終わるまでの文字範囲が続けば、それを“通常文2”と決定する。そして、“通常文1”と“通常文2”との間を文間部分と決定する。このような通常文と通常文との間の文間であれば、“通常文間”という文間種別を付与する。一方、行頭が箇条書きの記号から始まり、改行が入るまでの範囲を“箇条書き文1”と決定する。さらに行頭が箇条書きの記号から始まる文字列が続き、改行が入るまでの文字範囲が続けば、それを“箇条書き文2”と決定する。そして、“箇条書き文1”と“箇条書き文2”との間を文間部分と決定する。このような箇条書き文と箇条書き文との間の文間であれば、“箇条書き文間”という文間種別を付与する。通常文と箇条書き文との間には、例えば“通常文と箇条書き文の間”のような別の文間種別を付与する。通常文間であってもその間に改行があれば、“段落間”という文間種別を付与する。箇条書き文または通常文が文書の末尾であれば、その後ろには“文書末”という文間種別を付与する。その他に、文書冒頭のタイトルと通常文の間の“タイトルと通常文の間”、通常文と箇条書きタイトルの間の“通常文と箇条書きタイトルの間”、箇条書きタイトルと箇条書き項目との間の“箇条書きタイトルと箇条書き文の間”、箇条書き文の後に通常文が続く“箇条書き文と通常文の間”なども文書構造の境を示す文間種別として用いることができる。   In step S <b> 1, the document structure analysis unit 11 determines an inter-sentence type determined based on the document structure for each sentence between sentences included in the input document. Specifically, first, a sentence part included in the input document is determined, and it is determined that an inter-sentence part exists between successive sentences. For example, the range starting with a character other than a bullet symbol and ending with a punctuation is determined as “normal sentence 1”. If there is no line feed after “normal sentence 1”, characters other than bullet symbols follow, and the character range continues until the next punctuation mark, it is determined as “normal sentence 2”. Then, the portion between “normal sentence 1” and “normal sentence 2” is determined as the inter-sentence part. If there is a sentence between such a normal sentence and a normal sentence, an inter-sentence type “ordinary sentence” is assigned. On the other hand, the range from the beginning of the bullet to the beginning of the bullet and the line break is determined as “bullet 1”. If the character string starting with a bullet symbol at the beginning of the line continues and the character range continues until a line feed is entered, it is determined as “Bullet sentence 2”. Then, the section between “bullet sentence 1” and “bullet sentence 2” is determined as the inter-sentence part. If there is a sentence between such a bulleted sentence and a bulleted sentence, an inter-sentence type “between bulleted sentences” is assigned. Another sentence-to-sentence type such as “between a normal sentence and a bulleted sentence” is assigned between the normal sentence and the bulleted sentence. If there is a line break between normal sentences, an inter-sentence type of “between paragraphs” is assigned. If the bulleted sentence or the normal sentence is at the end of the document, an inter-sentence type “end of document” is added to the end. In addition, “between the title and normal text” between the title at the beginning of the document and the normal text, “between the normal text and the bulleted title” between the normal text and the bulleted title, the bulleted title and the bulleted item, “Between the bulleted title and the bulleted sentence” in between, “Between the bulleted sentence and the regular sentence” followed by the normal sentence after the bulleted sentence, etc., can also be used as the sentence type indicating the boundary of the document structure .

前記の箇条書きの記号であるかどうかの判定は、例えば、行頭から空白文字が0個以上続き、かつ、記号(例えば、

Figure 0006441177
など)が続き、その後、単語列が続く場合、または、文字があらかじめ定めておいた上限の数以下続き、閉じる括弧記号(例えば、
Figure 0006441177
など)が続き、その後、単語列が続く場合の、単語列の先頭の単語よりも文頭側の文字列を検出することで判定できる。 The determination as to whether or not the item is a bullet symbol is, for example, zero or more blank characters from the beginning of the line, and a symbol (for example,
Figure 0006441177
Etc., followed by a word string, or a character that is less than or equal to a predetermined upper limit and a closing parenthesis symbol (e.g.,
Figure 0006441177
Etc.), and then the word string continues, it can be determined by detecting the character string on the sentence head side with respect to the first word of the word string.

上述の処理を入力文書全体に繰り返すことで、文書構造の解析を行う。このようにして得た文間種別は、文間ポーズ長決定部13へ送られる。   By repeating the above process for the entire input document, the document structure is analyzed. The sentence type obtained in this way is sent to the sentence pause length determination unit 13.

図3に、最終的な解析結果の例を示す。図3の例では、入力文書は5つの文(文1〜5)からなり、文1〜3は通常文、文4〜5は箇条書き文である。また、文2と文3との間には改行が入っている。このとき、文1と文2との文間(文間1)の文間種別は“通常文間”であり、文2と文3との文間(文間2)の文間種別は“段落間”であり、文3と文4との文間(文間3)の文間種別は“通常文と箇条書きの間”であり、文4と文5との文間(文間4)の文間種別は“箇条書き項目間”であり、文5の後ろ(文間5)は“文書末”である。   FIG. 3 shows an example of the final analysis result. In the example of FIG. 3, the input document is composed of five sentences (sentences 1 to 5), the sentences 1 to 3 are normal sentences, and the sentences 4 to 5 are bulleted sentences. A line break is inserted between sentence 2 and sentence 3. At this time, the inter-sentence type between sentences 1 and 2 (sentence 1) is “ordinary sentence”, and the inter-sentence type between sentences 2 and 3 (sentence 2) is “sentence type”. The paragraph type between sentences 3 and 4 (between sentences 3) is “between normal sentence and itemized list”, and the sentence between sentences 4 and 5 (between sentences 4). ) Is “between itemized items”, and the back of sentence 5 (sentence 5) is “end of document”.

ステップS2において、音声合成部12は、入力文書に基づいて合成音声を生成し、各文間に対応するポーズの長さを基準ポーズ長として得る。音声合成の方法は任意の音声合成技術を用いることができる。既存の音声合成技術としては、例えば、下記参考文献1に記載の音声合成技術が挙げられる。生成した合成音声と基準ポーズ長とは、文間ポーズ長決定部13へ送られる。   In step S2, the speech synthesizer 12 generates synthesized speech based on the input document, and obtains a pose length corresponding to each sentence as a reference pose length. As a speech synthesis method, any speech synthesis technique can be used. Examples of the existing speech synthesis technology include the speech synthesis technology described in Reference Document 1 below. The generated synthesized speech and the reference pose length are sent to the inter-text pose length determination unit 13.

〔参考文献1〕Keiichi Tokuda、“HMM-based Speech Synthesis System (HTS)”、[online]、[平成27年7月20日検索]、インターネット〈URL:http://hts.sp.nitech.ac.jp/〉 [Reference 1] Keiichi Tokuda, “HMM-based Speech Synthesis System (HTS)”, [online], [searched July 20, 2015], Internet <URL: http://hts.sp.nitech.ac .jp />

音声合成器によって生成された音声とポーズを用いる代わりに、合成対象の文書を人間が読み上げた音声を録音し、各文間のポーズ時間長を測定し、これを基準ポーズ長とし、前記文間種別と各文間のポーズとを対応付け、文書の先頭から末尾までの順で各文の音声と文間種別に対応した文間のポーズ長とを交互に並べたデータを文間ポーズ長決定部13へ送ることも可能である。   Instead of using the speech and pose generated by the speech synthesizer, record the speech that the human being read out the document to be synthesized, measure the pause time length between each sentence, and use this as the reference pause length, The sentence and the pause between each sentence are associated with each other, and the sentence pause length is determined by alternately arranging the voice of each sentence and the pause length between sentences corresponding to the sentence-to-sentence type in the order from the beginning to the end of the document. It is also possible to send it to the section 13.

ステップS3において、文間ポーズ長決定部13は、文書構造解析部11から受け取った入力文書の文間種別をモデル記憶部10に記憶された文間ポーズ長伸縮モデルへ入力して、文間ポーズの長さを伸縮するための制御情報を得る。そして、その制御情報に基づいて音声合成部12から受け取った基準ポーズ長を伸縮することで、合成音声の各文間に対応するポーズの長さを決定する。   In step S <b> 3, the sentence pause length determination unit 13 inputs the sentence gap type of the input document received from the document structure analysis unit 11 to the sentence pause length expansion / contraction model stored in the model storage unit 10, and the sentence pause. Control information for expanding / contracting the length of is obtained. Based on the control information, the reference pose length received from the speech synthesizer 12 is expanded or contracted to determine the length of the pose corresponding to each sentence of the synthesized speech.

例えば、文間種別が“箇条書き文間”である文間には、合成音声の基準ポーズ長に関わらず一定値へ伸縮させる。“通常文間”には、合成音声または録音音声内の基準ポーズ長に一定倍率をかけた長さに伸長する。併せて、“通常文間”に与える一定倍率、または、これとは別の一定倍率を用いて、文のポーズ以外の音声部分の長さを伸長することも可能である。   For example, between sentences whose inter-sentence type is “between bullets”, it is expanded or contracted to a constant value regardless of the reference pause length of the synthesized speech. In the “normal sentence interval”, the length is increased by multiplying the reference pose length in the synthesized voice or the recorded voice by a fixed magnification. At the same time, it is also possible to extend the length of the voice part other than the sentence pose by using a constant magnification given to “between normal sentences” or a constant magnification different from this.

このように構成することにより、この発明のポーズ長制御装置は、文書の構造に基づいて文間ポーズの長さを適切に制御できる。その結果、ポーズの存在と長さによって文書の構造を聞き手に伝えることができ、より高い理解を与えることが可能となる。   With this configuration, the pause length control device of the present invention can appropriately control the length of the pause between sentences based on the document structure. As a result, the structure of the document can be communicated to the listener by the presence and length of the pose, and a higher understanding can be given.

この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。   The present invention is not limited to the above-described embodiment, and it goes without saying that modifications can be made as appropriate without departing from the spirit of the present invention. The various processes described in the above embodiment may be executed not only in time series according to the order of description, but also in parallel or individually as required by the processing capability of the apparatus that executes the processes or as necessary.

[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
[Program, recording medium]
When various processing functions in each device described in the above embodiment are realized by a computer, the processing contents of the functions that each device should have are described by a program. Then, by executing this program on a computer, various processing functions in each of the above devices are realized on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。   The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。   This program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。   A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. A configuration in which the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes a processing function only by an execution instruction and result acquisition without transferring a program from the server computer to the computer. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   In this embodiment, the present apparatus is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.

1 ポーズ長制御装置
10 モデル記憶部
11 文書構造解析部
12 音声合成部
13 文間ポーズ長決定部
DESCRIPTION OF SYMBOLS 1 Pause length control apparatus 10 Model memory | storage part 11 Document structure analysis part 12 Speech synthesis part 13 Sentence pause length determination part

Claims (3)

入力された文間種別に応じて文間ポーズの長さを伸縮するための制御情報を出力する文間ポーズ長伸縮モデルを記憶するモデル記憶部と、
入力文書に含まれる各文の文間ごとに文書構造に基づいて定まる文間種別を決定する文書構造解析部と、
上記入力文書に基づいて合成音声を生成し、各文間に対応するポーズの長さを基準ポーズ長として得る音声合成部と、
上記入力文書の文間種別を入力として上記文間ポーズ長伸縮モデルが出力した上記制御情報に基づいて上記基準ポーズ長を伸縮することで上記合成音声の各文間に対応するポーズの長さを決定する文間ポーズ長決定部と、
を含み、
上記文書構造解析部は、上記入力文書に含まれる各文を通常文もしくは箇条書き文に分類し、上記文間の前後の文の分類および上記文間における改行の有無により文間種別を決定するものである、
ポーズ長決定装置。
A model storage unit for storing an inter-sentence pose length expansion / contraction model that outputs control information for expanding / contracting the length of the inter-sentence pose according to the input inter-sentence type;
A document structure analysis unit that determines an inter-sentence type determined based on the document structure for each sentence included in the input document;
A speech synthesizer that generates synthesized speech based on the input document and obtains a pose length corresponding to each sentence as a reference pose length;
The length of the pose corresponding to each sentence of the synthesized speech is obtained by expanding / contracting the reference pose length based on the control information output by the inter-text pose length expansion / contraction model using the inter-text type of the input document as an input. A sentence-to-sentence pose length determining unit;
Only including,
The document structure analysis unit classifies each sentence included in the input document as a normal sentence or a bulleted sentence, and determines a sentence type according to classification of sentences before and after the sentence and whether or not there is a line break between the sentences. Is,
Pause length determination device.
モデル記憶部に、入力された文間種別に応じて文間ポーズの長さを伸縮するための制御情報を出力する文間ポーズ長伸縮モデルが記憶されており、
文書構造解析部が、入力文書に含まれる各文の文間ごとに文書構造に基づいて定まる文間種別を決定する文書構造解析ステップと、
音声合成部が、上記入力文書に基づいて合成音声を生成し、各文間に対応するポーズの長さを基準ポーズ長として得る音声合成ステップと、
文間ポーズ長決定部が、上記入力文書の文間種別を入力として上記文間ポーズ長伸縮モデルが出力した上記制御情報に基づいて上記基準ポーズ長を伸縮することで上記合成音声の各文間に対応するポーズの長さを決定する文間ポーズ長決定ステップと、
を含み、
上記文書構造解析ステップは、上記入力文書に含まれる各文を通常文もしくは箇条書き文に分類し、上記文間の前後の文の分類および上記文間における改行の有無により文間種別を決定する、
ポーズ長決定方法。
The model storage unit stores a sentence pause length expansion / contraction model that outputs control information for expanding / contracting the length of the sentence pause according to the input sentence classification,
A document structure analysis step in which a document structure analysis unit determines an inter-sentence type determined based on the document structure for each sentence included in the input document;
A speech synthesis step in which a speech synthesis unit generates synthesized speech based on the input document and obtains a pose length corresponding to each sentence as a reference pose length;
The sentence pause length determination unit takes the sentence type of the input document as input and expands / contracts the reference pose length based on the control information output by the sentence pause length expansion / contraction model so that each sentence of the synthesized speech is A sentence pose length determination step for determining the length of the pose corresponding to
Only including,
In the document structure analysis step, each sentence included in the input document is classified into a normal sentence or a bulleted sentence, and a sentence classification is determined based on classification of sentences before and after the sentence and presence / absence of line breaks between the sentences. ,
How to determine the pose length.
請求項1に記載のポーズ長決定装置としてコンピュータを機能させるためのプログラム。 A program for causing a computer to function as the pause length determination device according to claim 1 .
JP2015149184A 2015-07-29 2015-07-29 PAUSE LENGTH DETERMINING DEVICE, PAUSE LENGTH DETERMINING METHOD, AND PROGRAM Active JP6441177B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015149184A JP6441177B2 (en) 2015-07-29 2015-07-29 PAUSE LENGTH DETERMINING DEVICE, PAUSE LENGTH DETERMINING METHOD, AND PROGRAM

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015149184A JP6441177B2 (en) 2015-07-29 2015-07-29 PAUSE LENGTH DETERMINING DEVICE, PAUSE LENGTH DETERMINING METHOD, AND PROGRAM

Publications (2)

Publication Number Publication Date
JP2017032621A JP2017032621A (en) 2017-02-09
JP6441177B2 true JP6441177B2 (en) 2018-12-19

Family

ID=57988734

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015149184A Active JP6441177B2 (en) 2015-07-29 2015-07-29 PAUSE LENGTH DETERMINING DEVICE, PAUSE LENGTH DETERMINING METHOD, AND PROGRAM

Country Status (1)

Country Link
JP (1) JP6441177B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6633466B2 (en) * 2016-07-12 2020-01-22 日本電信電話株式会社 Pause length control device, pause length control method, and program

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61233795A (en) * 1985-04-10 1986-10-18 株式会社日立製作所 Voice synthesizer
US5315688A (en) * 1990-09-21 1994-05-24 Theis Peter F System for recognizing or counting spoken itemized expressions
JPH0644247A (en) * 1992-07-24 1994-02-18 Fujitsu Ltd Speech synthesizing device
JP3712325B2 (en) * 1998-09-10 2005-11-02 株式会社リコー Document reading device
JP3648456B2 (en) * 2001-01-11 2005-05-18 シャープ株式会社 Speech synthesizer
JP4551066B2 (en) * 2003-07-14 2010-09-22 ブラザー工業株式会社 Speech synthesis apparatus, speech synthesis method, and speech synthesis program

Also Published As

Publication number Publication date
JP2017032621A (en) 2017-02-09

Similar Documents

Publication Publication Date Title
US8204738B2 (en) Removing bias from features containing overlapping embedded grammars in a natural language understanding system
US11417325B2 (en) Detection of story reader progress for pre-caching special effects
US20210183378A1 (en) Dynamic adjustment of story time special effects based on contextual data
US11862192B2 (en) Algorithmic determination of a story readers discontinuation of reading
JP6495792B2 (en) Speech recognition apparatus, speech recognition method, and program
JP2019139010A (en) Voice recognition accuracy deterioration factor estimation device, voice recognition accuracy deterioration factor estimation method and program
CN116702723A (en) Training method, device and equipment for contract paragraph annotation model
US11526671B2 (en) Reading progress estimation based on phonetic fuzzy matching and confidence interval
JP5404726B2 (en) Information processing apparatus, information processing method, and program
CN108345679B (en) Audio and video retrieval method, device and equipment and readable storage medium
JP6441177B2 (en) PAUSE LENGTH DETERMINING DEVICE, PAUSE LENGTH DETERMINING METHOD, AND PROGRAM
KR102067973B1 (en) Method for wakeup word selection using edit distance
CN110600003A (en) Robot voice output method and device, robot and storage medium
KR20120045906A (en) Apparatus and method for correcting error of corpus
JP6486789B2 (en) Speech recognition apparatus, speech recognition method, and program
JP6353408B2 (en) Language model adaptation device, language model adaptation method, and program
US20170270949A1 (en) Summary generating device, summary generating method, and computer program product
KR20180094738A (en) Apparatus and method for digitizing sentiment and predicting climax using the same
JP6805927B2 (en) Index generator, data search program, index generator, data search device, index generation method, and data search method
JP5980143B2 (en) Pose assignment model generation device, pose assignment model generation method, pose assignment device, pose assignment method, program
JP4749756B2 (en) Speech recognition apparatus and program thereof
Mehta et al. Video Transcript Extraction and Summarization Using Transfer Learning
JP2005148307A (en) Device and method for speaking speed conversion, program, and recording medium
JP2023183930A (en) Utterance data generation device, interaction device, and method for creating generative model
Chen et al. Punctuation prediction for Chinese spoken sentence based on model combination

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170829

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180705

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180731

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180906

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181121

R150 Certificate of patent or registration of utility model

Ref document number: 6441177

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150