JP6441177B2 - PAUSE LENGTH DETERMINING DEVICE, PAUSE LENGTH DETERMINING METHOD, AND PROGRAM - Google Patents
PAUSE LENGTH DETERMINING DEVICE, PAUSE LENGTH DETERMINING METHOD, AND PROGRAM Download PDFInfo
- Publication number
- JP6441177B2 JP6441177B2 JP2015149184A JP2015149184A JP6441177B2 JP 6441177 B2 JP6441177 B2 JP 6441177B2 JP 2015149184 A JP2015149184 A JP 2015149184A JP 2015149184 A JP2015149184 A JP 2015149184A JP 6441177 B2 JP6441177 B2 JP 6441177B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- length
- pose
- document
- pause
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
この発明は、音声合成技術に関し、特に、合成音声の文間に挿入されるポーズの長さを制御する技術に関する。 The present invention relates to a speech synthesis technique, and more particularly to a technique for controlling the length of a pause inserted between sentences of synthesized speech.
例えば、介護担当者は、高齢者へ話しかける場合には、ゆっくりと話しかけるように指導されている(例えば、非特許文献1参照)。それによって、高齢者の理解が容易な形での話しかけが実現される。これと同様に、計算機等によって生成される合成音声の速度も、文ごとにゆっくりとした速度で読み上げることが望ましいと考えられる。しかしながら、文間の無音区間(いわゆるポーズ)の長さの具体的な制御方法は明らかではない。 For example, a caregiver is instructed to speak slowly when talking to an elderly person (see, for example, Non-Patent Document 1). As a result, the conversation in a form that is easy for the elderly to understand is realized. Similarly, it may be desirable to read out the synthesized speech generated by a computer or the like at a slower rate for each sentence. However, a specific method for controlling the length of silent intervals (so-called pauses) between sentences is not clear.
文間のポーズの長さを制御する技術として、文内の言葉の部分をゆっくりと再生する一方で、言葉と言葉の間のポーズを短くして再生する話速変換技術が存在する(例えば、非特許文献2参照)。 As a technique for controlling the length of pauses between sentences, there is a speech speed conversion technique that slowly reproduces the part of a word in a sentence while shortening the pause between words (for example, Non-patent document 2).
しかしながら、非特許文献2に記載された話速変換技術は、音声を放送時間の制限の範囲に収めるための技術であるため、高齢者向けに話された音声において文間ポーズの長さを制御する場合には適切ではない。他には、文間ポーズの長さを音声区間と同様の比率で伸縮することも考えられるが、必ずしも高齢者の理解が容易な音声になるとは限らず適切ではない。 However, since the speech speed conversion technique described in Non-Patent Document 2 is a technique for keeping the voice within the limit of the broadcast time, it controls the length of the sentence pause in the voice spoken for the elderly. It is not appropriate if you want to. In addition, it is conceivable that the length of the pause between sentences is expanded or contracted at the same ratio as that of the speech section, but it is not always appropriate because the speech is not easily understood by the elderly.
この発明は、このような点に鑑みて、文書の構造に基づいて文間ポーズの長さを適切に制御できるポーズ長制御技術を提供することを目的とする。 In view of the above, an object of the present invention is to provide a pause length control technique capable of appropriately controlling the length of a pause between sentences based on a document structure.
上記の課題を解決するために、この発明のポーズ長制御装置は、入力された文間種別に応じて文間ポーズの長さを伸縮するための制御情報を出力する文間ポーズ長伸縮モデルを記憶するモデル記憶部と、入力文書に含まれる各文の文間ごとに文書構造に基づいて定まる文間種別を決定する文書構造解析部と、入力文書に基づいて合成音声を生成し、各文間に対応するポーズの長さを基準ポーズ長として得る音声合成部と、入力文書の文間種別を入力として文間ポーズ長伸縮モデルが出力した制御情報に基づいて基準ポーズ長を伸縮することで合成音声の各文間に対応するポーズの長さを決定する文間ポーズ長決定部と、を含む。 In order to solve the above-described problem, the pause length control device of the present invention provides a sentence pause length expansion / contraction model that outputs control information for expanding / contracting the length of sentence pause according to the input sentence classification. A model storage unit for storing, a document structure analysis unit for determining an inter-sentence type determined based on the document structure for each sentence of each sentence included in the input document, and a synthesized speech is generated based on the input document. A speech synthesizer that obtains the length of the corresponding pose as the reference pose length, and the reference pose length is expanded and contracted based on the control information output by the sentence pose length expansion / contraction model with the sentence type of the input document as input. An inter-sentence pause length determining unit that determines the length of a pause corresponding to each sentence of the synthesized speech.
この発明によれば、文書の構造に基づいて文間ポーズの長さを適切に制御できる。その結果、ポーズの存在と長さによって文書の構造を聞き手に伝えることができ、より高い理解を与えることが可能となる。 According to the present invention, it is possible to appropriately control the length of the pause between sentences based on the document structure. As a result, the structure of the document can be communicated to the listener by the presence and length of the pose, and a higher understanding can be given.
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。 Hereinafter, embodiments of the present invention will be described in detail. In addition, the same number is attached | subjected to the component which has the same function in drawing, and duplication description is abbreviate | omitted.
実施形態のポーズ長制御装置は、図1に示すように、音声合成の対象とする文書を入力とし、入力文書から生成した合成音声における文間ポーズ長を出力する装置である。ポーズ長制御装置1は、モデル記憶部10、文書構造解析部11、音声合成部12、および文間ポーズ長決定部13を含む。このポーズ長制御装置1が後述する各ステップの処理を行うことにより実施形態のポーズ長制御方法が実現される。
As shown in FIG. 1, the pause length control apparatus according to the embodiment is an apparatus that receives a text to be synthesized as an input and outputs the pause length between sentences in synthesized speech generated from the input document. The pause length control device 1 includes a
ポーズ長制御装置1は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。ポーズ長制御装置1は、例えば、中央演算処理装置の制御のもとで各処理を実行する。ポーズ長制御装置1に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて読み出されて他の処理に利用される。また、ポーズ長制御装置1の各処理部の少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。ポーズ長制御装置1の各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。 The pause length control device 1 is configured, for example, by loading a special program into a known or dedicated computer having a central processing unit (CPU), a main storage (RAM), and the like. It is a special device. For example, the pause length control device 1 executes each process under the control of the central processing unit. The data input to the pause length control device 1 and the data obtained in each process are stored in, for example, the main storage device, and the data stored in the main storage device is read out as needed for other processing. Used. Further, at least a part of each processing unit of the pause length control apparatus 1 may be configured by hardware such as an integrated circuit. Each storage unit of the pause length control device 1 is, for example, a main storage device such as a RAM (Random Access Memory), an auxiliary storage device configured by a semiconductor memory element such as a hard disk, an optical disk, or a flash memory, or It can be configured with middleware such as a relational database or key-value store.
図2を参照して、実施形態のポーズ長制御方法の処理手続きを説明する。 A processing procedure of the pause length control method of the embodiment will be described with reference to FIG.
モデル記憶部10には、入力された文間種別に応じて文間ポーズの長さを伸縮するための制御情報を出力する文間ポーズ長伸縮モデルが記憶されている。文間種別とは、連続する二つの文の文間ごとに、前後の文の種類および文間における改行の有無によって定まる、文書構造を表す情報である。実施形態の文間ポーズ長伸縮モデルは、例えば、高齢者に聞き取りやすいように文間ポーズ長を伸縮するための伸縮倍率とバイアス項を有するモデルである。例えば、伸縮前のポーズ長をx、伸縮後のポーズ長をyとして、y=a1×x+b1の線形式で表すことができる。ここで、a1が伸縮倍率であり、b1がバイアス項である。また、文間種別を変数として文間ポーズ長の伸縮倍率を切り替えたり、文間ポーズ長として固定値を与えたりするモデルであってもよい。
The
ポーズ長制御装置に入力される文書は、例えば、図を含まず、複数の文とそのレイアウトによって構成されるテキスト文書である。入力文書には複数の文が含まれており、文内や文末には句読点が存在する。入力文書には箇条書きが含まれていてもよく、一般的に用いられる行頭記号(例えば、中黒「・」など)を用いて各項目が記述されている。ここでは、ひと続きの文は改行なく連続して記述されているものとする。 The document input to the pause length control device is, for example, a text document including a plurality of sentences and their layouts without including a figure. The input document includes a plurality of sentences, and there are punctuation marks in the sentence and at the end of the sentence. The input document may include bullets, and each item is described using a bullet (for example, “•” or the like) that is generally used. Here, it is assumed that a series of sentences are described continuously without line breaks.
ステップS1において、文書構造解析部11は、入力文書に含まれる各文の文間ごとに、文書構造に基づいて定まる文間種別を決定する。具体的には、まず、入力文書に含まれる文部分を決定し、連続する文の間に文間部分が存在すると決定する。例えば、行頭が箇条書きの記号以外の文字から始まり、句点で終わる範囲を“通常文1”と決定する。“通常文1”の後に改行が無く、箇条書きの記号以外の文字が続き、次の句点で終わるまでの文字範囲が続けば、それを“通常文2”と決定する。そして、“通常文1”と“通常文2”との間を文間部分と決定する。このような通常文と通常文との間の文間であれば、“通常文間”という文間種別を付与する。一方、行頭が箇条書きの記号から始まり、改行が入るまでの範囲を“箇条書き文1”と決定する。さらに行頭が箇条書きの記号から始まる文字列が続き、改行が入るまでの文字範囲が続けば、それを“箇条書き文2”と決定する。そして、“箇条書き文1”と“箇条書き文2”との間を文間部分と決定する。このような箇条書き文と箇条書き文との間の文間であれば、“箇条書き文間”という文間種別を付与する。通常文と箇条書き文との間には、例えば“通常文と箇条書き文の間”のような別の文間種別を付与する。通常文間であってもその間に改行があれば、“段落間”という文間種別を付与する。箇条書き文または通常文が文書の末尾であれば、その後ろには“文書末”という文間種別を付与する。その他に、文書冒頭のタイトルと通常文の間の“タイトルと通常文の間”、通常文と箇条書きタイトルの間の“通常文と箇条書きタイトルの間”、箇条書きタイトルと箇条書き項目との間の“箇条書きタイトルと箇条書き文の間”、箇条書き文の後に通常文が続く“箇条書き文と通常文の間”なども文書構造の境を示す文間種別として用いることができる。 In step S <b> 1, the document structure analysis unit 11 determines an inter-sentence type determined based on the document structure for each sentence between sentences included in the input document. Specifically, first, a sentence part included in the input document is determined, and it is determined that an inter-sentence part exists between successive sentences. For example, the range starting with a character other than a bullet symbol and ending with a punctuation is determined as “normal sentence 1”. If there is no line feed after “normal sentence 1”, characters other than bullet symbols follow, and the character range continues until the next punctuation mark, it is determined as “normal sentence 2”. Then, the portion between “normal sentence 1” and “normal sentence 2” is determined as the inter-sentence part. If there is a sentence between such a normal sentence and a normal sentence, an inter-sentence type “ordinary sentence” is assigned. On the other hand, the range from the beginning of the bullet to the beginning of the bullet and the line break is determined as “bullet 1”. If the character string starting with a bullet symbol at the beginning of the line continues and the character range continues until a line feed is entered, it is determined as “Bullet sentence 2”. Then, the section between “bullet sentence 1” and “bullet sentence 2” is determined as the inter-sentence part. If there is a sentence between such a bulleted sentence and a bulleted sentence, an inter-sentence type “between bulleted sentences” is assigned. Another sentence-to-sentence type such as “between a normal sentence and a bulleted sentence” is assigned between the normal sentence and the bulleted sentence. If there is a line break between normal sentences, an inter-sentence type of “between paragraphs” is assigned. If the bulleted sentence or the normal sentence is at the end of the document, an inter-sentence type “end of document” is added to the end. In addition, “between the title and normal text” between the title at the beginning of the document and the normal text, “between the normal text and the bulleted title” between the normal text and the bulleted title, the bulleted title and the bulleted item, “Between the bulleted title and the bulleted sentence” in between, “Between the bulleted sentence and the regular sentence” followed by the normal sentence after the bulleted sentence, etc., can also be used as the sentence type indicating the boundary of the document structure .
前記の箇条書きの記号であるかどうかの判定は、例えば、行頭から空白文字が0個以上続き、かつ、記号(例えば、
上述の処理を入力文書全体に繰り返すことで、文書構造の解析を行う。このようにして得た文間種別は、文間ポーズ長決定部13へ送られる。
By repeating the above process for the entire input document, the document structure is analyzed. The sentence type obtained in this way is sent to the sentence pause
図3に、最終的な解析結果の例を示す。図3の例では、入力文書は5つの文(文1〜5)からなり、文1〜3は通常文、文4〜5は箇条書き文である。また、文2と文3との間には改行が入っている。このとき、文1と文2との文間(文間1)の文間種別は“通常文間”であり、文2と文3との文間(文間2)の文間種別は“段落間”であり、文3と文4との文間(文間3)の文間種別は“通常文と箇条書きの間”であり、文4と文5との文間(文間4)の文間種別は“箇条書き項目間”であり、文5の後ろ(文間5)は“文書末”である。 FIG. 3 shows an example of the final analysis result. In the example of FIG. 3, the input document is composed of five sentences (sentences 1 to 5), the sentences 1 to 3 are normal sentences, and the sentences 4 to 5 are bulleted sentences. A line break is inserted between sentence 2 and sentence 3. At this time, the inter-sentence type between sentences 1 and 2 (sentence 1) is “ordinary sentence”, and the inter-sentence type between sentences 2 and 3 (sentence 2) is “sentence type”. The paragraph type between sentences 3 and 4 (between sentences 3) is “between normal sentence and itemized list”, and the sentence between sentences 4 and 5 (between sentences 4). ) Is “between itemized items”, and the back of sentence 5 (sentence 5) is “end of document”.
ステップS2において、音声合成部12は、入力文書に基づいて合成音声を生成し、各文間に対応するポーズの長さを基準ポーズ長として得る。音声合成の方法は任意の音声合成技術を用いることができる。既存の音声合成技術としては、例えば、下記参考文献1に記載の音声合成技術が挙げられる。生成した合成音声と基準ポーズ長とは、文間ポーズ長決定部13へ送られる。
In step S2, the
〔参考文献1〕Keiichi Tokuda、“HMM-based Speech Synthesis System (HTS)”、[online]、[平成27年7月20日検索]、インターネット〈URL:http://hts.sp.nitech.ac.jp/〉 [Reference 1] Keiichi Tokuda, “HMM-based Speech Synthesis System (HTS)”, [online], [searched July 20, 2015], Internet <URL: http://hts.sp.nitech.ac .jp />
音声合成器によって生成された音声とポーズを用いる代わりに、合成対象の文書を人間が読み上げた音声を録音し、各文間のポーズ時間長を測定し、これを基準ポーズ長とし、前記文間種別と各文間のポーズとを対応付け、文書の先頭から末尾までの順で各文の音声と文間種別に対応した文間のポーズ長とを交互に並べたデータを文間ポーズ長決定部13へ送ることも可能である。
Instead of using the speech and pose generated by the speech synthesizer, record the speech that the human being read out the document to be synthesized, measure the pause time length between each sentence, and use this as the reference pause length, The sentence and the pause between each sentence are associated with each other, and the sentence pause length is determined by alternately arranging the voice of each sentence and the pause length between sentences corresponding to the sentence-to-sentence type in the order from the beginning to the end of the document. It is also possible to send it to the
ステップS3において、文間ポーズ長決定部13は、文書構造解析部11から受け取った入力文書の文間種別をモデル記憶部10に記憶された文間ポーズ長伸縮モデルへ入力して、文間ポーズの長さを伸縮するための制御情報を得る。そして、その制御情報に基づいて音声合成部12から受け取った基準ポーズ長を伸縮することで、合成音声の各文間に対応するポーズの長さを決定する。
In step S <b> 3, the sentence pause
例えば、文間種別が“箇条書き文間”である文間には、合成音声の基準ポーズ長に関わらず一定値へ伸縮させる。“通常文間”には、合成音声または録音音声内の基準ポーズ長に一定倍率をかけた長さに伸長する。併せて、“通常文間”に与える一定倍率、または、これとは別の一定倍率を用いて、文のポーズ以外の音声部分の長さを伸長することも可能である。 For example, between sentences whose inter-sentence type is “between bullets”, it is expanded or contracted to a constant value regardless of the reference pause length of the synthesized speech. In the “normal sentence interval”, the length is increased by multiplying the reference pose length in the synthesized voice or the recorded voice by a fixed magnification. At the same time, it is also possible to extend the length of the voice part other than the sentence pose by using a constant magnification given to “between normal sentences” or a constant magnification different from this.
このように構成することにより、この発明のポーズ長制御装置は、文書の構造に基づいて文間ポーズの長さを適切に制御できる。その結果、ポーズの存在と長さによって文書の構造を聞き手に伝えることができ、より高い理解を与えることが可能となる。 With this configuration, the pause length control device of the present invention can appropriately control the length of the pause between sentences based on the document structure. As a result, the structure of the document can be communicated to the listener by the presence and length of the pose, and a higher understanding can be given.
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。 The present invention is not limited to the above-described embodiment, and it goes without saying that modifications can be made as appropriate without departing from the spirit of the present invention. The various processes described in the above embodiment may be executed not only in time series according to the order of description, but also in parallel or individually as required by the processing capability of the apparatus that executes the processes or as necessary.
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
[Program, recording medium]
When various processing functions in each device described in the above embodiment are realized by a computer, the processing contents of the functions that each device should have are described by a program. Then, by executing this program on a computer, various processing functions in each of the above devices are realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 This program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. A configuration in which the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes a processing function only by an execution instruction and result acquisition without transferring a program from the server computer to the computer. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 In this embodiment, the present apparatus is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.
1 ポーズ長制御装置
10 モデル記憶部
11 文書構造解析部
12 音声合成部
13 文間ポーズ長決定部
DESCRIPTION OF SYMBOLS 1 Pause
Claims (3)
入力文書に含まれる各文の文間ごとに文書構造に基づいて定まる文間種別を決定する文書構造解析部と、
上記入力文書に基づいて合成音声を生成し、各文間に対応するポーズの長さを基準ポーズ長として得る音声合成部と、
上記入力文書の文間種別を入力として上記文間ポーズ長伸縮モデルが出力した上記制御情報に基づいて上記基準ポーズ長を伸縮することで上記合成音声の各文間に対応するポーズの長さを決定する文間ポーズ長決定部と、
を含み、
上記文書構造解析部は、上記入力文書に含まれる各文を通常文もしくは箇条書き文に分類し、上記文間の前後の文の分類および上記文間における改行の有無により文間種別を決定するものである、
ポーズ長決定装置。 A model storage unit for storing an inter-sentence pose length expansion / contraction model that outputs control information for expanding / contracting the length of the inter-sentence pose according to the input inter-sentence type;
A document structure analysis unit that determines an inter-sentence type determined based on the document structure for each sentence included in the input document;
A speech synthesizer that generates synthesized speech based on the input document and obtains a pose length corresponding to each sentence as a reference pose length;
The length of the pose corresponding to each sentence of the synthesized speech is obtained by expanding / contracting the reference pose length based on the control information output by the inter-text pose length expansion / contraction model using the inter-text type of the input document as an input. A sentence-to-sentence pose length determining unit;
Only including,
The document structure analysis unit classifies each sentence included in the input document as a normal sentence or a bulleted sentence, and determines a sentence type according to classification of sentences before and after the sentence and whether or not there is a line break between the sentences. Is,
Pause length determination device.
文書構造解析部が、入力文書に含まれる各文の文間ごとに文書構造に基づいて定まる文間種別を決定する文書構造解析ステップと、
音声合成部が、上記入力文書に基づいて合成音声を生成し、各文間に対応するポーズの長さを基準ポーズ長として得る音声合成ステップと、
文間ポーズ長決定部が、上記入力文書の文間種別を入力として上記文間ポーズ長伸縮モデルが出力した上記制御情報に基づいて上記基準ポーズ長を伸縮することで上記合成音声の各文間に対応するポーズの長さを決定する文間ポーズ長決定ステップと、
を含み、
上記文書構造解析ステップは、上記入力文書に含まれる各文を通常文もしくは箇条書き文に分類し、上記文間の前後の文の分類および上記文間における改行の有無により文間種別を決定する、
ポーズ長決定方法。 The model storage unit stores a sentence pause length expansion / contraction model that outputs control information for expanding / contracting the length of the sentence pause according to the input sentence classification,
A document structure analysis step in which a document structure analysis unit determines an inter-sentence type determined based on the document structure for each sentence included in the input document;
A speech synthesis step in which a speech synthesis unit generates synthesized speech based on the input document and obtains a pose length corresponding to each sentence as a reference pose length;
The sentence pause length determination unit takes the sentence type of the input document as input and expands / contracts the reference pose length based on the control information output by the sentence pause length expansion / contraction model so that each sentence of the synthesized speech is A sentence pose length determination step for determining the length of the pose corresponding to
Only including,
In the document structure analysis step, each sentence included in the input document is classified into a normal sentence or a bulleted sentence, and a sentence classification is determined based on classification of sentences before and after the sentence and presence / absence of line breaks between the sentences. ,
How to determine the pose length.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015149184A JP6441177B2 (en) | 2015-07-29 | 2015-07-29 | PAUSE LENGTH DETERMINING DEVICE, PAUSE LENGTH DETERMINING METHOD, AND PROGRAM |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015149184A JP6441177B2 (en) | 2015-07-29 | 2015-07-29 | PAUSE LENGTH DETERMINING DEVICE, PAUSE LENGTH DETERMINING METHOD, AND PROGRAM |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017032621A JP2017032621A (en) | 2017-02-09 |
JP6441177B2 true JP6441177B2 (en) | 2018-12-19 |
Family
ID=57988734
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015149184A Active JP6441177B2 (en) | 2015-07-29 | 2015-07-29 | PAUSE LENGTH DETERMINING DEVICE, PAUSE LENGTH DETERMINING METHOD, AND PROGRAM |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6441177B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6633466B2 (en) * | 2016-07-12 | 2020-01-22 | 日本電信電話株式会社 | Pause length control device, pause length control method, and program |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61233795A (en) * | 1985-04-10 | 1986-10-18 | 株式会社日立製作所 | Voice synthesizer |
US5315688A (en) * | 1990-09-21 | 1994-05-24 | Theis Peter F | System for recognizing or counting spoken itemized expressions |
JPH0644247A (en) * | 1992-07-24 | 1994-02-18 | Fujitsu Ltd | Speech synthesizing device |
JP3712325B2 (en) * | 1998-09-10 | 2005-11-02 | 株式会社リコー | Document reading device |
JP3648456B2 (en) * | 2001-01-11 | 2005-05-18 | シャープ株式会社 | Speech synthesizer |
JP4551066B2 (en) * | 2003-07-14 | 2010-09-22 | ブラザー工業株式会社 | Speech synthesis apparatus, speech synthesis method, and speech synthesis program |
-
2015
- 2015-07-29 JP JP2015149184A patent/JP6441177B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017032621A (en) | 2017-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8204738B2 (en) | Removing bias from features containing overlapping embedded grammars in a natural language understanding system | |
US11417325B2 (en) | Detection of story reader progress for pre-caching special effects | |
US20210183378A1 (en) | Dynamic adjustment of story time special effects based on contextual data | |
US11862192B2 (en) | Algorithmic determination of a story readers discontinuation of reading | |
JP6495792B2 (en) | Speech recognition apparatus, speech recognition method, and program | |
JP2019139010A (en) | Voice recognition accuracy deterioration factor estimation device, voice recognition accuracy deterioration factor estimation method and program | |
CN116702723A (en) | Training method, device and equipment for contract paragraph annotation model | |
US11526671B2 (en) | Reading progress estimation based on phonetic fuzzy matching and confidence interval | |
JP5404726B2 (en) | Information processing apparatus, information processing method, and program | |
CN108345679B (en) | Audio and video retrieval method, device and equipment and readable storage medium | |
JP6441177B2 (en) | PAUSE LENGTH DETERMINING DEVICE, PAUSE LENGTH DETERMINING METHOD, AND PROGRAM | |
KR102067973B1 (en) | Method for wakeup word selection using edit distance | |
CN110600003A (en) | Robot voice output method and device, robot and storage medium | |
KR20120045906A (en) | Apparatus and method for correcting error of corpus | |
JP6486789B2 (en) | Speech recognition apparatus, speech recognition method, and program | |
JP6353408B2 (en) | Language model adaptation device, language model adaptation method, and program | |
US20170270949A1 (en) | Summary generating device, summary generating method, and computer program product | |
KR20180094738A (en) | Apparatus and method for digitizing sentiment and predicting climax using the same | |
JP6805927B2 (en) | Index generator, data search program, index generator, data search device, index generation method, and data search method | |
JP5980143B2 (en) | Pose assignment model generation device, pose assignment model generation method, pose assignment device, pose assignment method, program | |
JP4749756B2 (en) | Speech recognition apparatus and program thereof | |
Mehta et al. | Video Transcript Extraction and Summarization Using Transfer Learning | |
JP2005148307A (en) | Device and method for speaking speed conversion, program, and recording medium | |
JP2023183930A (en) | Utterance data generation device, interaction device, and method for creating generative model | |
Chen et al. | Punctuation prediction for Chinese spoken sentence based on model combination |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170829 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180705 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180731 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180906 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181120 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181121 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6441177 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |