JP2009251015A - Voice edition program, voice edition system, semiconductor integrated circuit device, and manufacturing method for semiconductor integrated circuit device - Google Patents

Voice edition program, voice edition system, semiconductor integrated circuit device, and manufacturing method for semiconductor integrated circuit device Download PDF

Info

Publication number
JP2009251015A
JP2009251015A JP2008094924A JP2008094924A JP2009251015A JP 2009251015 A JP2009251015 A JP 2009251015A JP 2008094924 A JP2008094924 A JP 2008094924A JP 2008094924 A JP2008094924 A JP 2008094924A JP 2009251015 A JP2009251015 A JP 2009251015A
Authority
JP
Japan
Prior art keywords
sentence
phrase
information
data
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008094924A
Other languages
Japanese (ja)
Inventor
Sukehiro Kuchiki
裕拓 朽木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2008094924A priority Critical patent/JP2009251015A/en
Publication of JP2009251015A publication Critical patent/JP2009251015A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To efficiently edit a voice data file required and sufficient for speaking a voice guide message. <P>SOLUTION: A computer is functioned as a phrase data storage part 172 storing a phrase data including a voice data of phrases and a text data of the phrases, a sentence editing part 120 for edition-processing a sentence, and a sentence information generation-processing part 122 for generating sentence information including phrase specifying information for specifying the phrases constituting the sentence and sequence information as to a regeneration order of the phrases. The sentence information generation-processing part 122 receives the text data of the sentence, executes sentence division processing for dividing the text data of the received sentence into the plurality of phrases, and generates the phrase specifying information and the sequence information of the phrases constituting the divided sentence. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、音声編集プログラム、音声編集システム、半導体集積回路装置及び半導体集積回路装置の製造方法に関する。   The present invention relates to a voice editing program, a voice editing system, a semiconductor integrated circuit device, and a method for manufacturing a semiconductor integrated circuit device.

ホストプロセッサ、音声ICを搭載し、ホストプロセッサと音声ICが連動して音声でメッセージを主力する音声再生システムが搭載された電子機器が知られている。
特開2002−55692号
2. Description of the Related Art There is known an electronic device that includes a host processor and an audio IC, and is mounted with an audio playback system in which the host processor and the audio IC work in conjunction with each other to mainly send messages by voice.
JP 2002-55692 A

電子機器等にユーザーインターフェースとして予め設定された音声ガイドメッセージを出力する音声機能を持たせる場合、出力予定音声ガイドメッセージに対応した音声データファイルを音声再生装置の内蔵ROMに格納して、ホストからのコマンドに基づき、内蔵ROMから読み出した音声データを再生出力させる方式の音声再生システムがある。   When an electronic device has a voice function for outputting a voice guide message set in advance as a user interface, a voice data file corresponding to the voice guide message to be output is stored in the built-in ROM of the voice playback device, There is an audio reproduction system that reproduces and outputs audio data read from a built-in ROM based on a command.

かかる音声再生システムでは、一旦内蔵ROMの内容を確定させると変更や追加や修正が困難であるので、音声ガイドメッセージの発話音声を十分に確認してから内蔵ROMに音声データファイルを格納することが好ましい。   In such an audio reproduction system, once the contents of the internal ROM are determined, it is difficult to change, add or modify. Therefore, it is possible to store the audio data file in the internal ROM after sufficiently confirming the voice of the audio guide message. preferable.

また複数の音声ガイドメッセージを発話予定である場合には、複数の音声ガイドメッセージの再生に必要十分な音声ファイルをもれなく確実に格納することが好ましい。   Further, when a plurality of voice guide messages are scheduled to be uttered, it is preferable that all voice files necessary and sufficient for reproducing the plurality of voice guide messages are stored without fail.

本発明は、以上のような技術的課題に鑑みてなされたものであり、その目的とするところは、電子機器等で出力予定の音声ガイドメッセージを発話させるために必要十分な音声データファイルを効率よく編集、生成するための音声編集プログラム、音声編集システム、半導体集積回路装置及び半導体集積回路装置の製造方法に関する。   The present invention has been made in view of the technical problems as described above, and an object of the present invention is to efficiently generate a voice data file necessary and sufficient to utter a voice guide message to be output by an electronic device or the like. The present invention relates to a voice editing program, a voice editing system, a semiconductor integrated circuit device, and a method for manufacturing a semiconductor integrated circuit device, which are often edited and generated.

(1)本発明は、
コンピュータを音声編集ツールとして機能させるプログラムであって、
フレーズの音声データとフレーズのテキストデータを含むフレーズデータが記憶されたフレーズデータ記憶部と、
前記フレーズデータに基づき、センテンスの編集処理を行うセンテンス編集処理部と、
センテンスの編集処理結果に基づき、センテンスを構成するフレーズを特定するフレーズ特定情報とフレーズの再生順序に関するシーケンス情報を含むセンテンス情報の生成を行うセンテンス情報生成処理部と、してコンピュータを機能させ、
前記センテンス編集処理部は、
前記センテンスのテキストデータを受け付け、フレーズのテキストデータに基づき、受け付けたセンテンスのテキストデータを複数のフレーズに分割するセンテンス分割処理を行い、
前記センテンス情報生成処理部は、
分割されたセンテンスを構成するフレーズのフレーズ特定情報とシーケンス情報を含むセンテンス情報の生成を行う。
(1) The present invention
A program that allows a computer to function as a voice editing tool,
A phrase data storage unit storing phrase data including phrase voice data and phrase text data;
A sentence editing processing unit that performs sentence editing processing based on the phrase data;
Based on the sentence editing process result, the sentence function generation processing unit for generating sentence information including phrase specifying information for specifying a phrase constituting the sentence and sequence information regarding the reproduction order of the phrases, and causing the computer to function,
The sentence editing processing unit
The sentence text data is received, and based on the phrase text data, sentence split processing is performed to divide the received sentence text data into a plurality of phrases,
The sentence information generation processing unit
Sentence information including phrase specifying information and sequence information of phrases constituting the divided sentence is generated.

フレーズとは例えば文節や文の一部である。音声データは、既存の音声再生システムによって再生される音データのファイルであり、圧縮された音ファイルでもよい。例えばTTSツールにより作成された音声データでもよい。   A phrase is, for example, a phrase or a part of a sentence. The sound data is a sound data file reproduced by an existing sound reproduction system, and may be a compressed sound file. For example, audio data created by a TTS tool may be used.

センテンスとは例えば文であり、電子機器などの音声ガイドメッセージとして使用される文でもよい。   The sentence is, for example, a sentence, and may be a sentence used as a voice guide message for an electronic device or the like.

フレーズのテキストデータとはフレーズの読み方や書き方を示すテキストデータであり、文字(かな文字やカナ文字や漢字や数字を示すコード)データでもよい。   The phrase text data is text data indicating how to read and write the phrase, and may be character (code indicating kana characters, kana characters, kanji characters, or numbers) data.

フレーズデータ記憶部に記憶されているフレーズデータは、フレーズの音声ファイルのサイズ情報(バイト数等)やフレーズの音声ファイルの再生時間情報(ms)等を含んでもよい。   Phrase data stored in the phrase data storage unit may include phrase audio file size information (number of bytes, etc.), phrase audio file playback time information (ms), and the like.

フレーズの特定情報とは、フレーズに対応した音声データのファイル情報にアクセス可能な情報であり、例えば音声データファイルのファイル名称でも良いし、フレーズデータの識別IDやフレーズデータへのインデックスでもよい。   The phrase specific information is information accessible to the file information of the audio data corresponding to the phrase, and may be, for example, a file name of the audio data file, an identification ID of the phrase data, or an index to the phrase data.

センテンス情報は、フレーズの音声データのファイル情報(ファイル名称)を、シーケンス情報に従って並べた情報でもよい。   The sentence information may be information in which file information (file names) of phrase voice data is arranged according to sequence information.

センテンス分割処理は、センテンスを構成するテキストデータとフレーズのテキスとデータを比較照合して、センテンスを構成するテキストデータをフレーズのテキストデータに分ける処理である。センテンスを構成するテキストデータを第1のテキスト部分、第2のテキスト部分、・・。第nのテキスト部分に分割した場合、第1のテキスト部分、第2のテキスト部分、・・。第nのテキスト部分のすべてがフレーズのテキストデータとしてフレーズデータ記憶部に記憶されているフレーズのテキストデータと一致した場合に分割処理がおこなわれるようにしてもよい。   The sentence division process is a process of comparing and collating the text data constituting the sentence with the text of the phrase and the data, and dividing the text data constituting the sentence into the text data of the phrase. The text data constituting the sentence is a first text part, a second text part,. When divided into the nth text part, the first text part, the second text part,... The division process may be performed when all of the nth text portion matches the phrase text data stored in the phrase data storage unit as the phrase text data.

本発明、音声ガイドメッセージ等のセンテンス音声を発話させるために必要十分な音声データを効率よく編集、生成することができる。   The present invention can efficiently edit and generate necessary and sufficient voice data to utter a sentence voice such as a voice guide message.

(2)このプログラムは、
センテンスの編集処理結果に基づき、前記センテンスを構成するフレーズの編集情報を生成し、生成したフレーズ編集情報を前記フレーズデータに関連づけて保持するフレーズ編集情報生成処理部を含んでもよい。
(2) This program
A phrase editing information generation processing unit may be included that generates editing information of a phrase that constitutes the sentence based on a sentence editing process result, and stores the generated phrase editing information in association with the phrase data.

フレーズ編集情報は、例えばセンテンスに使用される使用回数情報や、ROMへの書き込みの有無の情報を含んでもよい。   The phrase editing information may include, for example, usage count information used for sentences and information on whether or not data is written to the ROM.

フレーズ編集情報処理部は、センテンス情報が作成される際にセンテンス解析を構成するフレーズに対応した使用回数情報の値をカウントアップするようにしてもよい。   The phrase editing information processing unit may count up the value of the usage count information corresponding to the phrase constituting the sentence analysis when the sentence information is created.

ROMへの書き込みの有無の情報とは、音声ガイドメッセージの音声データファイルを格納するメモリへ書き込むか否かを指定するための情報で、ここでROMへ書き込み有りと指定することで、センテンスに使用されていないフレーズの音声データもメモリに格納することができる。   The information on the presence or absence of writing to the ROM is information for designating whether or not to write to the memory storing the voice data file of the voice guide message. Here, it is used for the sentence by designating that there is writing to the ROM. Voice data of phrases that have not been recorded can also be stored in the memory.

(3)このプログラムは、
前記フレーズ編集情報生成処理部が、
複数のセンテンスで使用されるフレーズ又は1つのセンテンスで複数回使用されるフレーズの使用回数をカウントしてカウント値をフレーズ編集情報として保持してもよい。
(3) This program
The phrase editing information generation processing unit
The number of times of use of a phrase used in a plurality of sentences or a phrase used a plurality of times in one sentence may be counted, and the count value may be held as phrase editing information.

例えば所定のフレーズについては音質の異なる音声データのファイル(ファイルサイズの異なる音声データファイル)を複数用意し、当該フレーズの使用回数のカウント値に応じて使用する異なる音質の音声データのファイルを使用するようにしてもよい。例えば使用頻度の高いフレーズについては品質のよい音声データのファイルを使用するようにしてもよい。このようにすることで、効率よく音質を向上させることができる。   For example, for a given phrase, a plurality of audio data files having different sound quality (audio data files having different file sizes) are prepared, and different sound quality audio data files are used according to the count value of the number of times the phrase is used. You may do it. For example, a high-quality voice data file may be used for a frequently used phrase. By doing in this way, sound quality can be improved efficiently.

(4)このプログラムは、
前記フレーズ編集情報に基づき音声データメモリに格納する格納対象フレーズを抽出し、抽出されたフレーズの音声データをフレーズデータ記憶部から読み出して、読み出した音声データに基づき、音声データメモリに書き込むメモリ書き込み情報を生成するメモリ書き込み情報生成部を含み、
複数のセンテンスで使用されているフレーズについては同じ音声データが重複して書き込まれないようにメモリ書き込み情報を生成してもよい。
(4) This program
Memory writing information for extracting a storage target phrase to be stored in the audio data memory based on the phrase editing information, reading out the audio data of the extracted phrase from the phrase data storage unit, and writing to the audio data memory based on the read audio data Including a memory write information generation unit for generating
For phrases used in a plurality of sentences, memory write information may be generated so that the same audio data is not written redundantly.

フレーズの編集情報は、例えばセンテンスに使用される使用回数情報や、ROMへの書き込みの有無の情報である場合、使用回数情報が1回以上であるフレーズとROMへの書き込むの有無の情報が書き込み有りとなっているフレーズを抽出するようにしてもよい。
前記フレーズ編集情報に基づきフレーズ単位で抽出するので、複数のセンテンスで使用されているフレーズについても同じ音声データが重複して書き込まれないようにメモリ書き込み情報(ROMイメージ)を生成することができる。
When the phrase editing information is, for example, information on the number of times of use used in a sentence or information on the presence / absence of writing to a ROM, the information on the number of times of use information is one or more and the information on whether or not writing to the ROM is written A phrase that is present may be extracted.
Since extraction is performed in units of phrases based on the phrase editing information, it is possible to generate memory writing information (ROM image) so that the same audio data is not written redundantly for phrases used in a plurality of sentences.

従って複数のセンテンスで共用されるフレーズについても、メモリにはフレーズの音声データは1つしか格納されないので、メモリサイズの増大を防ぐことができる。   Therefore, even for a phrase shared by a plurality of sentences, only one phrase voice data is stored in the memory, so that an increase in memory size can be prevented.

(5)このプログラムは、
前記メモリ書き込み情報生成部が、
前記メモリ書き込み情報の合計サイズを算出して算出結果に基づきサイズ情報を出力してもよい。
(5) This program
The memory write information generation unit
The total size of the memory write information may be calculated and the size information may be output based on the calculation result.

使用するメモリサイズ情報と前記合計サイズを比較して、比較結果を出力するようにしてもよい。使用するメモリサイズ情報が前記合計サイズより小さい登坂団した場合には、警告情報を出力するようにしてもよい。   The memory size information to be used may be compared with the total size, and the comparison result may be output. Warning information may be output when the memory size information to be used is a climber group smaller than the total size.

(6)このプログラムは、
前記センテンス編集処理部が、
フレーズデータ記憶部に記憶されているフレーズの選択入力を受け付け、選択されたフレーズに基づきセンテンスを作成するフレーズ結合処理を行い、
前記センテンス情報生成処理部が、
作成されたセンテンスを構成するフレーズのフレーズ特定情報とシーケンス情報を含むセンテンス情報の生成を行ってもよい。
(6) This program
The sentence editing processing unit
Accepts phrase selection input stored in the phrase data storage unit, performs phrase combination processing to create a sentence based on the selected phrase,
The sentence information generation processing unit
You may generate | occur | produce the sentence information containing the phrase specific information and sequence information of the phrase which comprises the created sentence.

(7)このプログラムは、
前記センテンス編集処理部が、
フレーズ分割処理結果に基づき、センテンスを構成するフレーズを表示する表示出力処理を行ってもよい。
(7) This program
The sentence editing processing unit
Based on the result of the phrase division process, a display output process for displaying a phrase constituting the sentence may be performed.

表示出力として、例えば表形式のセンテンス表示画面を生成し、センテンスと、センテンスの分割結果抽出されたセンテンスを構成する複数のフレーズを表示するようにしてもよい。   As a display output, for example, a sentence-format sentence display screen may be generated, and a sentence and a plurality of phrases constituting the sentence extracted as a result of sentence division may be displayed.

また例えば入力されたセンテンスに誤りがあってフレーズに分割できなかった場合には、センテンスを構成するフレーズの表示を行わないようにしても良い。このようにすると分割結果がわかりやすく修正にも対応しやすい。   Further, for example, when an input sentence has an error and cannot be divided into phrases, the phrase constituting the sentence may not be displayed. In this way, the division result is easy to understand and can be easily corrected.

(8)このプログラムは、
前記センテンスのテキストデータは、フレーズの区切りを示す区切りデータを含み、
前記センテンス編集処理処理部が、
前記区切りデータに基づき前記センテンス分割処理を行ってもよい。
(8) This program
The text data of the sentence includes delimiter data indicating phrase delimiters,
The sentence editing processing unit
The sentence dividing process may be performed based on the delimiter data.

区切りデータは例えばスペースデータでもよいし、所定の文字や記号を示すテキストデータでもよい。   The delimiter data may be space data, for example, or text data indicating a predetermined character or symbol.

このようにするとフレーズ分割処理において、フレーズの区切りが間違えて認識されるような場合の回避手段を持つことができる。予めセンテンス中の区切って欲しい位置に区切りデータ(スペース等)を挿入するようにしてもよい。   If it does in this way, it can have a avoidance means in the case where a phrase division is recognized by mistake in phrase division processing. Separation data (such as a space) may be inserted in advance at a position in the sentence where the division is desired.

例えばセンテンスが”電源を切って下さい”に対して”電源を”、”電源を切って”、”切って下さい”、”下さい”等の文言の一部が重複するフレーズのフレーズデータが存在する場合に、センテンスを”電源を切って下さい”と言うように切りたい場所をスペースで明示する事で意図するフレーズに展開されるようにすることができる。   For example, there is phrase data for a phrase with a duplicated sentence such as “Turn off power”, “Turn off power”, “Turn off”, “Please”, etc. In some cases, the sentence can be expanded to the intended phrase by clearly indicating the place where you want to turn it off, such as "Please turn off the power".

(9)このプログラムは、
センテンスを構成するフレーズの特定情報に基づきセンテンスを構成するフレーズに対応した音声データをフレーズデータ記憶部から読み出して、センテンス情報のシーケンス情報に従って読み出した音声データの音声を再生出力するセンテンス音声再生出力処理部を含んでもよい。
(9) This program
Sentence voice playback output processing for reading out voice data corresponding to a phrase constituting the sentence from the phrase data storage unit based on specific information of the phrase constituting the sentence and reproducing and outputting the voice data read according to the sequence information of the sentence information Part may be included.

このようにすると編集した待ち時間が設定されたセンテンスの音声を確認しながら、待ち時間の設定を随時変更することにより、最適な無音区間の設定を行うことができる。   In this way, an optimum silent section can be set by changing the setting of the waiting time as needed while confirming the voice of the sentence in which the edited waiting time is set.

(10)このプログラムは、
前記センテンス編集処理部が、
センテンスを構成するフレーズの前及びフレーズ間の少なくとも1つについて設定する無音区間の長さに関する待ち時間情報に関する編集入力を受け付け、
前記センテンス情報生成処理部が、
前記待ち時間情報を含むセンテンス情報の生成を行ってもよい。
(10) This program
The sentence editing processing unit
Edit input related to waiting time information related to the length of the silent section set for at least one of the phrases constituting the sentence and between the phrases,
The sentence information generation processing unit
Sentence information including the waiting time information may be generated.

センテンス情報は、フレーズの音声データのファイル情報(ファイル名称)と、フレーズの前またはフレーズ間に設定する待ち時間情報を、シーケンス情報に従って並べた情報でもよい。   The sentence information may be information in which file information (file name) of phrase voice data and waiting time information set before or between phrases are arranged according to sequence information.

(11)このプログラムは、
前記センテンス音声再生出力処理部が、
センテンス情報の待ち時間情報に基づき、フレーズの前又はフレーズ間に無音区間を設定して音声データの音声を再生出力してもよい。
(11) This program
The sentence audio reproduction output processing unit
Based on the waiting time information of the sentence information, a silent section may be set before the phrase or between the phrases to reproduce and output the voice data.

(12)このプログラムは、
前記センテンス編集処理部は、
センテンスを編集するためのセンテンス編集画面の表示制御を行うセンテンス編集画面表示制御部を含み、
前記センテンス編集画面表示制御部は、
センテンスとセンテンスを構成するフレーズを表形式で表示し、各列は、センテンス表示欄、と当該センテンスを構成するフレーズ表示欄と、フレーズ間又はフレーズの前に設ける無音区間設定欄を含み、前記無音区間設定欄はフレーズ表示欄とフレーズ表示欄の間に設けられていてもよい。
(12) This program
The sentence editing processing unit
A sentence edit screen display control unit for controlling display of a sentence edit screen for editing a sentence;
The sentence edit screen display control unit
The sentence and the phrase constituting the sentence are displayed in a tabular form, and each column includes a sentence display field, a phrase display field constituting the sentence, and a silence interval setting field provided between phrases or in front of the phrase. The section setting field may be provided between the phrase display field and the phrase display field.

(13)このプログラムは、
センテンス音声の再生に必要な音声データを音声データメモリからよみだしセンテンスに対応した順序で再生させるための指示を行うセンテンス音声再生コマンドを、センテンス情報に基づき生成するセンテンス音声再生コマンド生成処理部を含んでもよい。
(13) This program
A sentence voice playback command generation processing unit for generating a sentence voice playback command for instructing to play back voice data necessary for playback of the sentence voice from the voice data memory in an order corresponding to the read sentence based on the sentence information; But you can.

例えばセンテンス情報のフレーズ特定情報に基づき、読み出すフレーズの音声データのファイルを決定し、音声データのファイル名をセンテンス情報のシーケンス情報に従って並べてセンテンス音声再生コマンドを生成してもよい。   For example, the voice data file of the phrase to be read may be determined based on the phrase specifying information of the sentence information, and the sentence voice reproduction command may be generated by arranging the file names of the voice data according to the sequence information of the sentence information.

また前記センテンス音声再生コマンド生成処理部は、
センテンス情報の待ち時間情報に基づき、フレーズの前又はフレーズ間に無音区間を設定して音声データの音声を再生出力するように、待ち時間情報も含めたセンテンス音声再生コマンドを生成するようにしてもよい。
The sentence voice playback command generation processing unit
Based on the waiting time information of the sentence information, a sentence voice playback command including the waiting time information may be generated so as to reproduce and output the voice of the voice data by setting a silent section before the phrase or between the phrases. Good.

この場合毎時間情報と、ファイル名を、再生順序に従ってならべてセンテンス音声再生コマンドを生成してもよい。   In this case, the sentence audio reproduction command may be generated by arranging the hourly information and the file name according to the reproduction order.

(14)本発明は、
音声編集システムであって、
フレーズの音声データとフレーズのテキストデータを含むフレーズデータが記憶されたフレーズデータ記憶部と、
前記フレーズデータに基づき、センテンスの編集処理を行うセンテンス編集処理部と、
センテンスの編集処理結果に基づき、センテンスを構成するフレーズを特定するためのフレーズ特定情報とフレーズの再生順序に関するシーケンス情報を含むセンテンス情報の生成を行うセンテンス情報生成処理部とを含み、
前記センテンス編集処理部は、
前記センテンスのテキストデータを受け付け、フレーズのテキストデータに基づき、受け付けたセンテンスのテキストデータを複数のフレーズに分割するセンテンス分割処理を行い、
前記センテンス情報生成処理部は、
分割されたセンテンスを構成するフレーズのフレーズ特定情報とシーケンス情報を含むセンテンス情報の生成を行う。
(14) The present invention provides:
An audio editing system,
A phrase data storage unit storing phrase data including phrase voice data and phrase text data;
A sentence editing processing unit that performs sentence editing processing based on the phrase data;
A sentence information generation processing unit for generating sentence information including phrase specifying information for specifying phrases constituting the sentence and sequence information related to the reproduction order of the phrases based on a sentence editing process result;
The sentence editing processing unit
The sentence text data is received, and based on the phrase text data, sentence split processing is performed to divide the received sentence text data into a plurality of phrases,
The sentence information generation processing unit
Sentence information including phrase specifying information and sequence information of phrases constituting the divided sentence is generated.

(15)本発明は、
不揮発性記憶部を含む、音声合成用の半導体集積回路装置の製造方法であって、
フレーズの音声データとフレーズのテキストデータを含むフレーズデータをフレーズデータ記憶部に記憶させるステップと、
前記フレーズデータに基づき、センテンスの編集処理を行うセンテンス編集処理部ステップと、
センテンスの編集処理結果に基づき、センテンスを構成するフレーズを特定するためのフレーズ特定情報とフレーズの再生順序に関するシーケンス情報を含むセンテンス情報の生成を行うセンテンス情報生成処理ステップと
前記フレーズ編集情報に基づき音声データメモリに格納する格納対象フレーズを抽出し、抽出されたフレーズの音声データをフレーズデータ記憶部から読み出して、音声データメモリに書き込むメモリ書き込み情報を生成するメモリ書き込み情報生成ステップと、
前記書き込むメモリ書き込み情報を前記不揮発性記憶部に書き込むステップとを、
を含み、
前記センテンス編集処理ステップにおいて、
前記センテンスのテキストデータを受け付け、フレーズのテキストデータに基づき、受け付けたセンテンスのテキストデータを複数のフレーズに分割するセンテンス分割処理を行い、
前記センテンス情報生成処理ステップにおいて、
分割されたセンテンスを構成するフレーズのフレーズ特定情報とシーケンス情報を含むセンテンス情報の生成を行い、
複数のセンテンスで使用されているフレーズについては同じ音声データが重複して書き込まれないようにメモリ書き込み情報を生成する。
(15) The present invention provides:
A method of manufacturing a semiconductor integrated circuit device for speech synthesis, including a non-volatile storage unit,
Storing phrase data including phrase voice data and phrase text data in a phrase data storage unit;
A sentence editing processing unit step for performing sentence editing processing based on the phrase data;
Sentence information generation processing step for generating sentence information including phrase specifying information for specifying phrases constituting the sentence and sequence information regarding the playback order of phrases based on the sentence editing processing result, and voice based on the phrase editing information A memory write information generation step of extracting a storage target phrase to be stored in the data memory, reading out the voice data of the extracted phrase from the phrase data storage unit, and generating memory write information to be written in the voice data memory;
Writing the memory write information to be written into the nonvolatile storage unit,
Including
In the sentence editing process step,
The sentence text data is received, and based on the phrase text data, sentence split processing is performed to divide the received sentence text data into a plurality of phrases,
In the sentence information generation processing step,
Generate sentence information including the phrase identification information and sequence information of the phrases that make up the divided sentence,
For phrases used in a plurality of sentences, memory write information is generated so that the same audio data is not written redundantly.

(16)本発明は、
上記のいずれかに記載の音声編集プログラムによって生成されたメモリ書き込み情報が記憶された不揮発性記憶部と、
センテンス情報またはセンテンス音声再生コマンドを受け取り、受け取ったセンテンス情報またはセンテンス音声再生コマンドに基づき前記不揮発性記憶部から音声データを読み出してセンテンスに対応した音声ガイドメッセージを再生出力する音声合成部と、
を含む半導体集積回路装置である。
(16) The present invention provides:
A non-volatile storage unit that stores memory write information generated by the voice editing program according to any one of the above,
A voice synthesizer that receives sentence information or a sentence voice reproduction command, reads out voice data from the nonvolatile storage unit based on the received sentence information or sentence voice reproduction command, and reproduces and outputs a voice guide message corresponding to the sentence;
Is a semiconductor integrated circuit device.

以下、本発明の好適な実施の形態について図面を用いて詳細に説明する。なお以下に説明する実施の形態は、特許請求の範囲に記載された本発明の内容を不当に限定するものではない。また以下で説明される構成の全てが本発明の必須構成要件であるとは限らない。   DESCRIPTION OF EMBODIMENTS Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the drawings. The embodiments described below do not unduly limit the contents of the present invention described in the claims. Moreover, not all of the configurations described below are essential constituent requirements of the present invention.

1.構成
図1は、本実施の形態の音声編集システムの機能ブロック図の一例である。
なお、本実施形態の音声編集システム100は、図1の構成要素(各部)を全て含む必要はなく、その一部を省略した構成としてもよい。
1. Configuration FIG. 1 is an example of a functional block diagram of a voice editing system according to the present embodiment.
Note that the voice editing system 100 according to the present embodiment does not have to include all of the components (each unit) in FIG. 1 and may have a configuration in which some of them are omitted.

操作部160は、ユーザーの操作等をデータとして入力するためのものであり、その機能は、操作ボタン、操作レバー、タッチパネル或いはマイクなどのハードウェアにより実現できる。   The operation unit 160 is for inputting a user operation or the like as data, and the function can be realized by hardware such as an operation button, an operation lever, a touch panel, or a microphone.

記憶部170は、処理部110や通信部196などのワーク領域となるもので、その機能はRAMなどのハードウェアにより実現できる。   The storage unit 170 serves as a work area for the processing unit 110, the communication unit 196, and the like, and its function can be realized by hardware such as a RAM.

記憶部170はフレーズの音声データとフレーズ読み方に関するテキストデータを含むフレーズデータが記憶されたフレーズデータ記憶部172として機能するようにしてもよい。フレーズデータとして、フレーズの音声データとフレーズのテキストデータを含むフレーズデータを記憶してもよい。   The storage unit 170 may function as a phrase data storage unit 172 in which phrase data including phrase voice data and text data related to phrase reading is stored. Phrase data including phrase voice data and phrase text data may be stored as the phrase data.

また記憶部170は、センテンスを構成するフレーズの音声データのファイル情報(ファイル名称)とフレーズの再生順序に関するシーケンス情報を含むセンテンス情報を記憶するセンテンス情報記憶部174として機能するようにしてもよい。   The storage unit 170 may function as a sentence information storage unit 174 that stores sentence information including file information (file name) of audio data of phrases constituting a sentence and sequence information related to the reproduction order of phrases.

また記憶部170は、センテンスを構成するフレーズの編集情報(使用回数、ROMへの書き込みの有無)をフレーズデータに関連づけて保持するフレーズ編集情報記憶部176として機能するようにしてもよい。   In addition, the storage unit 170 may function as a phrase editing information storage unit 176 that holds the editing information (the number of times of use, whether or not to write to the ROM) of the phrase constituting the sentence in association with the phrase data.

情報記憶媒体180(コンピュータにより読み取り可能な媒体)は、プログラムやデータなどを格納するものであり、その機能は、光ディスク(CD、DVD等)、光磁気ディスク(MO)、磁気ディスク、ハードディスク、磁気テープ、或いはメモリ(ROM)などのハードウェアにより実現できる。   The information storage medium 180 (a computer-readable medium) stores programs, data, and the like, and functions as an optical disk (CD, DVD, etc.), a magneto-optical disk (MO), a magnetic disk, a hard disk, and a magnetic disk. It can be realized by hardware such as a tape or a memory (ROM).

また情報記憶媒体180には、本実施形態の各部としてコンピュータを機能させるプログラムや補助データ(付加データ)が記憶されるとともに、フレーズデータベース又はフレーズデータベースから読み込んだフレーズデータ記憶部182として機能する。なお情報記憶媒体180には、本システムにより生成したROMイメージや音声再生コマンドも記憶するようにしてもよい。   The information storage medium 180 stores a program for causing the computer to function as each unit of the present embodiment and auxiliary data (additional data), and also functions as a phrase database or a phrase data storage unit 182 read from the phrase database. Note that the information storage medium 180 may also store ROM images and voice playback commands generated by this system.

処理部100は、この情報記憶媒体180に格納されるプログラム(データ)や情報記憶媒体180から読み出されたデータなどに基づいて本実施形態の種々の処理を行う。即ち情報記憶媒体180には、本実施形態の各部としてコンピュータを機能させるためのプログラム(各部の処理をコンピュータに実行させるためのプログラム)が記憶される。   The processing unit 100 performs various processes of the present embodiment based on a program (data) stored in the information storage medium 180, data read from the information storage medium 180, and the like. That is, the information storage medium 180 stores a program for causing a computer to function as each unit of the present embodiment (a program for causing a computer to execute processing of each unit).

表示部190は、本実施形態により生成された画像を出力するものであり、その機能は、CRTディスプレイ、LCD(液晶ディスプレイ)、OELD(有機ELディスプレイ)、PDP(プラズマディスプレイパネル)、タッチパネル型ディスプレイなどのハードウェアにより実現できる。表示部には本ツールの編集画面やダイアログ画面が表示される。   The display unit 190 outputs an image generated according to the present embodiment, and functions thereof are a CRT display, an LCD (liquid crystal display), an OELD (organic EL display), a PDP (plasma display panel), and a touch panel display. It can be realized by hardware such as. The editing screen and dialog screen of this tool are displayed on the display.

音出力部192は、本実施形態により生成された合成音声等を出力するものであり、その機能は、スピーカ、或いはヘッドフォンなどのハードウェアにより実現できる。   The sound output unit 192 outputs the synthesized speech generated by the present embodiment, and the function can be realized by hardware such as a speaker or headphones.

通信部196は、外部(例えばホスト装置や他の端末機)との間で通信を行うための各種の制御を行うものであり、その機能は、各種プロセッサ又は通信用ASICなどのハードウェアや、プログラムなどにより実現できる。   The communication unit 196 performs various controls for communicating with the outside (for example, a host device or another terminal), and functions thereof include hardware such as various processors or communication ASICs, It can be realized by a program.

なお本実施形態の各部としてコンピュータを機能させるためのプログラム(データ)は、ホスト装置(サーバ装置)が有する情報記憶媒体からネットワーク及び通信部196を介して情報記憶媒体180(あるいは記憶部170)に配信するようにしてもよい。このようなホスト装置(サーバ装置等)の情報記憶媒体の使用も本発明の範囲内に含めることができる。   Note that a program (data) for causing a computer to function as each unit of the present embodiment is transferred from the information storage medium included in the host device (server device) to the information storage medium 180 (or storage unit 170) via the network and communication unit 196. You may make it deliver. Use of the information storage medium of such a host device (server device or the like) can also be included in the scope of the present invention.

不揮発性記憶部150は、不揮発性メモリとして機能する記憶媒体で構成され、例えば電子機器に組み込まれる音声合成ICの内蔵ROMとして使用されるROMでもよい。不揮発性記憶部150には、メモリ書き込み情報152が書き込まれるようにしてもよい。また不揮発性記憶部150には、センテンス再生コマンドが書き込まれるようにしても良い。   The non-volatile storage unit 150 is configured by a storage medium that functions as a non-volatile memory, and may be a ROM used as a built-in ROM of a speech synthesis IC incorporated in an electronic device, for example. The memory write information 152 may be written in the nonvolatile storage unit 150. Further, a sentence reproduction command may be written in the nonvolatile storage unit 150.

処理部110(プロセッサ)は、操作部160からの操作データやプログラムなどに基づいて、記憶部170をワーク領域として各種処理を行う。処理部110の機能は各種プロセッサ(CPU、DSP等)、ASIC(ゲートアレイ等)などのハードウェアや、プログラムにより実現できる。   The processing unit 110 (processor) performs various processes using the storage unit 170 as a work area based on operation data, a program, and the like from the operation unit 160. The functions of the processing unit 110 can be realized by hardware such as various processors (CPU, DSP, etc.), ASIC (gate array, etc.), and programs.

処理部110は、センテンス編集処理部120、センテンス情報生成処理部122を含む、フレーズ情報生成処理部124、メモリ書き込み情報生成部130、センテンス音声再生コマンド生成部132、センテンス音声再生出力処理部140を含んでもよい。   The processing unit 110 includes a phrase editing processing unit 120, a sentence information generation processing unit 122, a phrase information generation processing unit 124, a memory writing information generation unit 130, a sentence voice reproduction command generation unit 132, and a sentence voice reproduction output processing unit 140. May be included.

センテンス編集処理部120は、前記フレーズデータに基づき、センテンスの編集処理を行い、センテンス情報生成処理部122は、センテンスの編集処理結果に基づき、センテンスを構成するフレーズを特定するフレーズ特定情報とフレーズの再生順序に関するシーケンス情報を含むセンテンス情報の生成を行う。   The sentence editing processing unit 120 performs sentence editing processing based on the phrase data, and the sentence information generation processing unit 122 performs phrase specifying information for specifying a phrase constituting the sentence and a phrase based on the sentence editing processing result. Sentence information including sequence information related to the reproduction order is generated.

センテンス編集処理部120は、センテンスのテキストデータを受け付け、フレーズのテキストデータに基づき、受け付けたセンテンスのテキストデータを複数のフレーズに分割するセンテンス分割処理を行い、センテンス情報生成処理部122は、分割されたセンテンスを構成するフレーズのフレーズ特定情報とシーケンス情報を含むセンテンス情報の生成を行う。   The sentence editing processing unit 120 receives sentence text data, performs sentence division processing for dividing the received sentence text data into a plurality of phrases based on the phrase text data, and the sentence information generation processing unit 122 is divided. Sentence information including phrase specifying information and sequence information of phrases constituting a sentence is generated.

フレーズ編集情報生成処理部124は、センテンスの編集処理結果に基づき、前記センテンスを構成するフレーズの編集情報を生成し、生成したフレーズ編集情報を前記フレーズデータに関連づけて保持する。   The phrase editing information generation processing unit 124 generates the editing information of the phrase constituting the sentence based on the sentence editing processing result, and holds the generated phrase editing information in association with the phrase data.

またフレーズ編集情報生成処理部124は、複数のセンテンスで使用されるフレーズ又は1つのセンテンスで複数回使用されるフレーズの使用回数をカウントしてカウント値をフレーズ編集情報として保持してもよい。   The phrase editing information generation processing unit 124 may count the number of times a phrase used in a plurality of sentences or a phrase used a plurality of times in one sentence and hold the count value as phrase editing information.

メモリ書き込み情報生成部130は、前記フレーズ編集情報に基づき音声データメモリに格納する格納対象フレーズを抽出し、抽出されたフレーズの音声データをフレーズデータ記憶部から読み出して、読み出した音声データに基づき、音声データメモリに書き込むメモリ書き込み情報を生成する。したがって、複数のセンテンスで使用されているフレーズについては同じ音声データが重複して書き込まれないようにメモリ書き込み情報を生成する。   The memory writing information generation unit 130 extracts a storage target phrase to be stored in the audio data memory based on the phrase editing information, reads out the audio data of the extracted phrase from the phrase data storage unit, and based on the read audio data, Memory write information to be written to the audio data memory is generated. Therefore, memory writing information is generated so that the same audio data is not written redundantly for phrases used in a plurality of sentences.

メモリ書き込み情報生成部130は、前記メモリ書き込み情報の合計サイズを算出して算出結果に基づきサイズ情報を出力してもよい。   The memory write information generation unit 130 may calculate the total size of the memory write information and output size information based on the calculation result.

センテンス編集処理部120は、フレーズデータ記憶部に記憶されているフレーズの選択入力を受け付け、選択されたフレーズに基づきセンテンスを作成するフレーズ結合処理を行い、センテンス情報生成処理部122は、作成されたセンテンスを構成するフレーズのフレーズ特定情報とシーケンス情報を含むセンテンス情報の生成を行うようにしてもよい。   The sentence editing processing unit 120 receives a selection input of a phrase stored in the phrase data storage unit, performs a phrase combining process for creating a sentence based on the selected phrase, and the sentence information generation processing unit 122 You may make it produce | generate the sentence information containing the phrase specific information and sequence information of the phrase which comprises a sentence.

またセンテンス編集処理部120は、フレーズ分割処理結果に基づき、センテンスを構成するフレーズを表示する表示出力処理を行うようにしてもよい。   In addition, the sentence editing processing unit 120 may perform display output processing for displaying a phrase constituting the sentence based on the phrase division processing result.

また前記センテンスのテキストデータは、フレーズの区切りを示す区切りデータを含み、センテンス編集処理処理部120は、前記区切りデータに基づき前記センテンス分割処理を行ってもい。   The sentence text data may include delimiter data indicating phrase delimiters, and the sentence editing processing unit 120 may perform the sentence dividing process based on the delimiter data.

センテンス音声再生出力処理部140は、センテンスを構成するフレーズの特定情報に基づきセンテンスを構成するフレーズに対応した音声データをフレーズデータ記憶部から読み出して、センテンス情報のシーケンス情報に従って読み出した音声データの音声を再生出力する。   The sentence sound reproduction output processing unit 140 reads out the sound data corresponding to the phrase constituting the sentence from the phrase data storage unit based on the specific information of the phrase constituting the sentence, and the sound of the sound data read according to the sequence information of the sentence information Is played back.

またセンテンス編集処理部120は、センテンスを構成するフレーズの前及びフレーズ間の少なくとも1つについて設定する無音区間の長さに関する待ち時間情報に関する編集入力を受け付け、センテンス情報生成処理部122は、前記待ち時間情報を含むセンテンス情報の生成を行ってもよい。   In addition, the sentence editing processing unit 120 accepts an editing input related to waiting time information regarding the length of a silent section set for at least one of the phrases constituting the sentence and between the phrases, and the sentence information generating processing unit 122 receives the waiting information. Sentence information including time information may be generated.

またセンテンス音声再生出力処理部140は、センテンス情報の待ち時間情報に基づき、フレーズの前又はフレーズ間に無音区間を設定して音声データの音声を再生出力してもよい。   Further, the sentence sound reproduction output processing unit 140 may reproduce and output the sound of the sound data by setting a silent section before the phrase or between the phrases based on the waiting time information of the sentence information.

またセンテンス編集処理部120は、センテンスを編集するためのセンテンス編集画面の表示制御を行うセンテンス編集画面表示制御部(図示せず)を含んでもよい。センテンス編集画面表示制御部は、センテンスとセンテンスを構成するフレーズを表形式で表示し、各列は、センテンス表示欄、と当該センテンスを構成するフレーズ表示欄と、フレーズ間又はフレーズの前に設ける無音区間設定欄を含み、前記無音区間設定欄はフレーズ表示欄とフレーズ表示欄の間に設けられていてもよい。   In addition, the sentence editing processing unit 120 may include a sentence editing screen display control unit (not shown) that performs display control of a sentence editing screen for editing a sentence. The sentence edit screen display control unit displays sentences and phrases constituting the sentence in a table format, and each column includes a sentence display field, a phrase display field that constitutes the sentence, and a silence provided between phrases or before the phrase. The silent section setting field may be provided between the phrase display field and the phrase display field.

センテンス音声再生コマンド生成処理部132は、センテンス音声の再生に必要な音声データを音声データメモリからよみだしセンテンスに対応した順序で再生させるための指示を行うセンテンス音声再生コマンドを、センテンス情報に基づき生成してもよい。   The sentence voice reproduction command generation processing unit 132 generates a sentence voice reproduction command for instructing to reproduce the voice data necessary for reproducing the sentence voice from the voice data memory in the order corresponding to the read sentence based on the sentence information. May be.

図2は、フレーズデータとフレーズ編集情報について説明するための図である。   FIG. 2 is a diagram for explaining the phrase data and the phrase editing information.

フレーズデータ200は、フレーズの音声データ202と、フレーズの音声データ202が格納されている音声データファイル名204(フレーズの音声データのファイル情報)、フレーズの音声データ202に対応した音声ログ情報210を含む、フレーズ識別ID206に対応付けて記憶されるようにしてもよい。   The phrase data 200 includes phrase audio data 202, an audio data file name 204 (phrase audio data file information) in which the phrase audio data 202 is stored, and audio log information 210 corresponding to the phrase audio data 202. It may be stored in association with the phrase identification ID 206.

音声データ202は、既存の音声再生システムによって再生可能な音データのファイルであり、圧縮された音ファイルでもよい。例えばTTSツールにより作成された音声データでもよい。   The audio data 202 is a sound data file that can be reproduced by an existing audio reproduction system, and may be a compressed sound file. For example, audio data created by a TTS tool may be used.

音声データファイル名204は、フレーズの音声データに関するファイル情報となるものであればよく、フレーズの音声ファイルのファイル識別情報や音声ファイルへのインデックス情報等の音声ファイルへアクセス可能な情報でもよい。   The audio data file name 204 only needs to be file information related to the audio data of the phrase, and may be information accessible to the audio file such as file identification information of the audio file of the phrase and index information to the audio file.

音声ログ情報210は、フレーズ読み方に関するテキストデータであるテキスト情報212を含んでもよい。また音声ログ情報210は、フレーズの音声データが格納されたファイルのサイズ情報(バイト数等)214を含んでもよい。また音声ログ情報210は、フレーズの音声ファイルの再生時間情報(ms)216を含んでもよい。また音声ログ情報210は、TTSパラメータやデータフォーマット情報等の図示しないその他の情報を含んでもよい。   The audio log information 210 may include text information 212 that is text data related to phrase reading. The audio log information 210 may also include file size information (such as the number of bytes) 214 in which phrase audio data is stored. The audio log information 210 may also include playback time information (ms) 216 of the phrase audio file. The audio log information 210 may also include other information (not shown) such as TTS parameters and data format information.

フレーズ編集情報220は、本実施の形態のセンテンス編集処理の結果に基づきフレーズ単位に生成生成される編集情報であり、フレーズデータ200に関連づけて保持される。フレーズ編集情報220は、センテンスに使用される使用回数情報222を含んでもよい。またフレーズ編集情報220は、ROMへの書き込みの有無を指示するためのROM書き込みの情報224を含んでもよい。   The phrase editing information 220 is editing information generated and generated for each phrase based on the result of the sentence editing process of the present embodiment, and is held in association with the phrase data 200. The phrase editing information 220 may include usage count information 222 used for sentences. The phrase editing information 220 may include ROM writing information 224 for instructing whether or not to write to the ROM.

図3は、センテンス情報について説明するための図である。   FIG. 3 is a diagram for explaining sentence information.

センテンス情報240は、センテンスの編集処理結果に基づき生成される情報であり、センテンス識別ID242に関連づけて記憶されるようにしてもよい。   The sentence information 240 is information generated based on the sentence editing process result, and may be stored in association with the sentence identification ID 242.

センテンス情報240は、センテンスを構成するフレーズのテキスト情報244を含んでもよい。   The sentence information 240 may include text information 244 of phrases constituting the sentence.

センテンス情報240は、センテンスのサイズ情報246を含んでもよい。センテンスのサイズ情報244はセンテンスを構成するフレーズの音声データファイルの合計バイト数でもよい。また待ち時間を無音の音声データとして有する場合にはこの無音区間データを含む合計のバイト数でもよい。   The sentence information 240 may include sentence size information 246. The sentence size information 244 may be the total number of bytes of the audio data file of the phrase constituting the sentence. In addition, when the waiting time is included as silent voice data, the total number of bytes including the silent section data may be used.

センテンス情報240は、センテンスの再生時間情報248を含んでもよい。センテンスの再生時間情報248は、センテンスを構成するフレーズの音声ファイルの再生時間の合計時間でもよい。またフレーズの前後やフレーズ間に設定された待ち時間も含んだ合計時間でもよい。   The sentence information 240 may include sentence playback time information 248. The sentence playback time information 248 may be the total playback time of the audio files of the phrases constituting the sentence. Moreover, the total time including the waiting time set before and after the phrase or between the phrases may be used.

センテンス情報240は、センテンスに関連して編集入力を受けたコメント情報250を含んでもよい。   The sentence information 240 may include comment information 250 that has received an edit input related to the sentence.

センテンス情報240は、センテンスを構成するフレーズ特定情報254−1〜254−nを含んでもよい。フレーズ特定情報254−1〜254−nは、フレーズに対応した音声データ(図2の202)のファイル情報にアクセス可能な情報であり、例えば音声データファイルのファイル名称(図2の204)でも良いし、フレーズ識別ID(図3の206)でもよい。フレーズ特定情報254−1〜254−nはフレーズの再生順序に従って並べるようにしてもよい(インデックスnがフレーズの再生順序と一致している)。   The sentence information 240 may include phrase specifying information 254-1 to 254-n constituting the sentence. The phrase specifying information 254-1 to 254-n is information accessible to the file information of the voice data (202 in FIG. 2) corresponding to the phrase, and may be, for example, the file name of the voice data file (204 in FIG. 2). Alternatively, the phrase identification ID (206 in FIG. 3) may be used. The phrase specifying information 254-1 to 254-n may be arranged according to the playback order of phrases (the index n matches the playback order of phrases).

センテンス情報240は、センテンスを構成するフレーズの前に設定されている待ち時間情報252−1〜252−nを含んでもよい。待ち時間情報252−1〜252−nは待ち時間の再生順序に従って並べるようにしてもよい(インデックスnがフレーズの再生順序と一致している)。   The sentence information 240 may include waiting time information 252-1 to 252-n set before a phrase constituting the sentence. The waiting time information 252-1 to 252-n may be arranged in accordance with the reproduction order of the waiting time (index n matches the reproduction order of phrases).

フレーズ特定情報254−1〜254−nや待ち時間情報252−1〜252−nを再生順序に従って並べることで、フレーズの再生順序に関するシーケンス情報として機能させることができる。   By arranging the phrase specifying information 254-1 to 254-n and the waiting time information 252-1 to 252-n in accordance with the reproduction order, it is possible to function as sequence information regarding the reproduction order of the phrases.

図4(A)はメモリ書き込み情報(ROMイメージ)の生成過程について説明するための図であり、図4(B)はメモリ書き込み情報(ROMイメージ)の使用形態について説明するための図である。   FIG. 4A is a diagram for explaining a generation process of memory write information (ROM image), and FIG. 4B is a diagram for explaining a usage form of the memory write information (ROM image).

100は、本実施の形態の音声編集ツール(プログラム又はシステム)である。10は電子機器等に組み込まれユーザーインターフェースとして予め設定されたメッセージを出力する音声機能を有するICである。音声合成IC10は、内蔵ROM20に格納されたROMイメージ152とセンテンス音声再生用コマンド154に基づきセンテンスに対応した音声を再生出力する。   Reference numeral 100 denotes a voice editing tool (program or system) according to the present embodiment. Reference numeral 10 denotes an IC which is incorporated in an electronic device or the like and has a voice function for outputting a message preset as a user interface. The voice synthesis IC 10 plays back and outputs voice corresponding to the sentence based on the ROM image 152 and the sentence voice playback command 154 stored in the built-in ROM 20.

音声編集ツール100を用いて、音声合成IC10の内蔵ROMに格納するROMイメージ(フレーズの音声データの集合)とセンテンス再生用コマンドを生成することができる。   Using the voice editing tool 100, a ROM image (a set of phrases voice data) stored in the built-in ROM of the voice synthesis IC 10 and a sentence playback command can be generated.

本音声編集ツール100は、例えばパーソナルコンピュータ(PC)等に本実施の形態の音声編集プログラムをインストールすることで音声編集システムとして動作させることができる。   The voice editing tool 100 can be operated as a voice editing system by installing the voice editing program of the present embodiment on a personal computer (PC), for example.

ユーザーは音声編集ツール100を用いて、音声合成IC10に発話させたい音声ガイドメッセージ(センテンス)を編集することができる。そして編集した音声ガイドメッセージの音声合成を行うために必要なフレーズの音声データのファイルの集合であるROMイメージ152と、ROMイメージの音声データファイルを読み出して音声ガイドメッセージ(センテンス)の音声合成を行うためのセンテンス音声合成コマンド154を作成することができる。   The user can use the voice editing tool 100 to edit a voice guide message (sentence) that the voice synthesis IC 10 wants to utter. The ROM image 152 which is a set of phrases voice data files necessary for voice synthesis of the edited voice guide message and the voice data file of the ROM image are read out and voice synthesis of the voice guide message (sentence) is performed. A sentence speech synthesis command 154 can be created.

音声編集ツール100は、編集の際にPCの表示部に図6〜図25に示すようなシート画面を表示し、PCのキーボード等から編集入力情報162の入力を受け付けるようにしてもよい。そして編集入力情報162やPCの記憶部に記憶されたフレーズデータ(音声データ、音声ログ情報)200に基づき、センテンスの編集処理を行い、編集結果に基づいてROMイメージ(音声データメモリに書き込むメモリ書き込み情報)152とセンテンス音声再生コマンド154を生成して出力するようにしてもよい。   The voice editing tool 100 may display a sheet screen as shown in FIGS. 6 to 25 on the display unit of the PC at the time of editing, and may receive input of the edit input information 162 from a PC keyboard or the like. Based on the edit input information 162 and phrase data (audio data, audio log information) 200 stored in the storage unit of the PC, sentence editing processing is performed, and a ROM image (memory writing to be written to the audio data memory) is performed based on the editing result. (Information) 152 and sentence voice reproduction command 154 may be generated and output.

センテンス音声再生コマンド154は、例えばセンテンスを構成するフレーズのファイル特定情報(例えばファイル名称等)を再生順に並べた構成でもよい。   The sentence voice reproduction command 154 may have a configuration in which file specification information (for example, a file name) of phrases constituting a sentence is arranged in reproduction order, for example.

作成されたROMイメージ152は、電子機器等電子機器等に搭載する音声合成IC10の内蔵メモリであるROMに格納してもよい。音声合成IC10は、音声編集ツール100によって生成されたROMイメージ(メモリ書き込み情報)152が記憶された内蔵ROM(不揮発性記憶部)20を含み、センテンス情報またはセンテンス音声再生コマンド154を受け取り、受け取ったセンテンス情報またはセンテンス音声再生コマンド154に基づき内蔵ROM(不揮発性記憶部)20から音声データを読み出してセンテンスに対応した音声ガイドメッセージを再生出力する音声合成部として機能する。音声再生コマンド154はホストコンピュータ(例えば電子機器等の主制御部)から受け取るようにしてもよい。   The created ROM image 152 may be stored in a ROM that is a built-in memory of the speech synthesis IC 10 mounted on an electronic device such as an electronic device. The voice synthesis IC 10 includes a built-in ROM (non-volatile storage unit) 20 in which a ROM image (memory writing information) 152 generated by the voice editing tool 100 is stored, and receives and receives sentence information or a sentence voice reproduction command 154. It functions as a voice synthesizer that reads voice data from the built-in ROM (non-volatile storage unit) 20 based on sentence information or sentence voice playback command 154 and plays back and outputs a voice guide message corresponding to the sentence. The audio reproduction command 154 may be received from a host computer (for example, a main control unit such as an electronic device).

フレーズデータ200の音声データは、キャラクタデータの集まりであるテキストデータから音声を合成するTTS方式で生成した音声データでもよい。また音声データは圧縮された形式で保持されていてもよい。   The speech data of the phrase data 200 may be speech data generated by a TTS method that synthesizes speech from text data that is a collection of character data. The audio data may be held in a compressed format.

TTSツール30は、作成するフレーズのテキスト情報40と、TTS用音声合成辞書50に基づきフレーズに対応した音声データを生成する。   The TTS tool 30 generates speech data corresponding to the phrase based on the text information 40 of the phrase to be created and the speech synthesis dictionary 50 for TTS.

TTSツール30は、TTS用音声合成辞書50に基づきテキストデータ40から音声を合成するTTS(text-to-speech)方式の音声合成システムである。TTSシステムには、人体の発声過程をモデル化して音を合成するパラメトリック方式、実在の人物の音声データからなる音素片データを持ち、必要に応じてそれを組み合わせるとともにつなぎ部分を一部変形するなどして合成するコンキャティネイティブ方式、さらに発展形として言語ベースの解析から音声への組み立てを行なって実声データから合成音声を形成するコーパスベース方式など多数の方式があるが、そのいずれにも適用可能である。例えばコンキャティネイティブ方式やコーパスベース方式などの場合には音素辞書を有し、音声合成部は音素辞書に基づき読み表記に対応した合成音声の音声データを生成するようにしてもよい。   The TTS tool 30 is a TTS (text-to-speech) speech synthesis system that synthesizes speech from text data 40 based on the TTS speech synthesis dictionary 50. The TTS system has a parametric method that models the speech process of the human body and synthesizes sound, and has phoneme data consisting of voice data of a real person. If necessary, combine them and transform part of the connection part. There are many methods, such as the concati-native method for synthesizing and synthesizing the speech, and the corpus-based method for forming synthesized speech from real voice data by assembling speech from language-based analysis into speech. Is possible. For example, in the case of a concati native method or a corpus-based method, a phoneme dictionary may be provided, and the speech synthesis unit may generate speech data of synthesized speech corresponding to reading notation based on the phoneme dictionary.

TTS用音声合成辞書50は、例えば語彙辞書や音素辞書を含む。語彙辞書は、テキスト表記に対応した読み表記が記憶されているデータ辞書であり、音素辞書は、声質を高めるのに効果的な多くのケースを網羅した辞書である。語彙辞書はテキスト読み上げ処理におけるフロントエンド処理を行うための辞書であり、テキスト表記に対応した記号化言語表現(symbolic linguistic representation)(例えばテキスト表記に対応した読みのデータ)が格納された辞書でもよい。フロントエンド処理では、テキストの中の数字や省略表現を読み上げるときの表現に変換する処理(テキストの正規化、プリプロセッシング、トークン化などと呼ばれる)や、各単語を発音記号に変換し、テキストを熟語や文節、文などの韻律単位に分割する処理(単語に発音記号を割り当てる処理をテキスト音素(text-to-phoneme (TTP))変換または書記素音素(grapheme-to-phoneme (GTP))変換と呼ぶ)等が行われ、発音記号と韻律情報を組み合わせて記号化言語表現を作成し出力される構成でもよい。テキスト正規化の工程では、テキストに含まれる同綴異義語、数字、省略表現等を発声できるように変換する処理が行われるようにしてもよい。   The TTS speech synthesis dictionary 50 includes, for example, a vocabulary dictionary and a phoneme dictionary. The vocabulary dictionary is a data dictionary in which reading notation corresponding to text notation is stored, and the phoneme dictionary is a dictionary that covers many cases effective for improving voice quality. The vocabulary dictionary is a dictionary for performing front-end processing in text-to-speech processing, and may be a dictionary that stores a symbolic linguistic representation corresponding to text notation (for example, reading data corresponding to text notation). . In front-end processing, the numbers and abbreviations in the text are converted into expressions for reading (called text normalization, preprocessing, tokenization, etc.), and each word is converted into a phonetic symbol, Processing to divide into prosodic units such as idioms, clauses, sentences, etc. (processing to assign phonetic symbols to words is text-to-phoneme (TTP) conversion or grapheme-to-phoneme (GTP) conversion) The symbolic language expression may be created and output by combining phonetic symbols and prosodic information. In the text normalization step, conversion processing may be performed so that synonyms, numbers, abbreviations, etc. included in the text can be uttered.

音素辞書は、フロントエンドの出力である記号化言語表現を入力として対応する実際の音(音素)の波形情報を格納する辞書である。バックエンドで音声波形を生成する主要技術には、連結的合成(concatenative synthesis)やフォルマント合成(formant synthesis)がある。連結的合成は、基本的には録音された音声の断片を連結して合成する方法である。   The phoneme dictionary is a dictionary that stores waveform information of an actual sound (phoneme) corresponding to a symbolic language expression that is output from the front end. The main technologies for generating speech waveforms at the back end include concatenative synthesis and formant synthesis. Linked synthesis is basically a method of combining recorded audio fragments.

TTSツール30は、TTS用音声合成辞書50に記憶されている語彙情報や音情報に基づき、フロントエンド処理やバックエンド処理を行い、入力されたフレーズのテキスト情報40に対応した音声データ(フレーズデータ210の音声データ)を生成するようにしてもよい。   The TTS tool 30 performs front-end processing and back-end processing based on the vocabulary information and sound information stored in the TTS speech synthesis dictionary 50, and speech data (phrase data) corresponding to the input phrase text information 40. 210 audio data) may be generated.

図26、図27(A)〜(C)は、本実施の形態の音声編集ツールで行われる各処理について説明するための図である。   FIGS. 26 and 27A to 27C are diagrams for explaining each process performed by the voice editing tool according to the present embodiment.

本実施の形態ではフレーズデータ記憶部172からフレーズデータ200−1、200−2、210−3、・・を読み込むフレーズデータ読み込み処理(P1)をおこなってもよい。フレーズデータは、各フレーズに対応した音声データのファイル(圧縮された音声ファイルでも良い。例えばEOV形式やADPCM形式やAAC−LC形式の音声データファイル)を含む。またフレーズデータは、フレーズ音声の読み方のテキストデータや、フレーズ音声の再生時間等の音声データファイルに対応づけられた付随データを含んでもよい。   In this embodiment, phrase data reading processing (P1) for reading phrase data 200-1, 200-2, 210-3,... From the phrase data storage unit 172 may be performed. The phrase data includes an audio data file corresponding to each phrase (a compressed audio file may be used. For example, an audio data file in an EOV format, an ADPCM format, or an AAC-LC format). The phrase data may include text data for reading the phrase sound and accompanying data associated with the sound data file such as the reproduction time of the phrase sound.

また本実施の形態では、フレーズデータやフレーズ編集情報に基づきフレーズリスト602を生成するフレーズリスト生成処理(P2)を行っても良い。フレーズリストとは、フレーズ単位でデータを管理するためのデータ構造をもつデータの集合であり、各フレーズを特定するための識別IDやインデックスに対応付けてフレーズデータ(音声データファイルや音声の読み方データや再生時間データやサイズデータ)やフレーズデータに関連する編集データ(遅延データやカウント値等)が記憶されている。フレーズリストに基づきフレーズリストシート(フレーズリストを表形式で表示する画像)生成して表示部に出力してもよい。   In the present embodiment, a phrase list generation process (P2) for generating a phrase list 602 based on phrase data or phrase editing information may be performed. A phrase list is a collection of data having a data structure for managing data in units of phrases, and phrase data (audio data file or audio reading data) associated with an identification ID or index for specifying each phrase. Edit data (delay data, count value, etc.) related to phrase data and playback time data and size data). A phrase list sheet (an image displaying the phrase list in a tabular form) may be generated based on the phrase list and output to the display unit.

また本実施の形態ではセンテンスの編集するための編集画面の表示を行う編集画面表示処理(P5)を行ってもよい。編集画面としてセンテンスリストシートを表示し(センテンスリストシート画面)、センテンスの再生時間やファイルサイズの表示を行い、表示内容をみながらセンテンスの編集が行えるようにしてもよい。   In the present embodiment, an edit screen display process (P5) for displaying an edit screen for editing a sentence may be performed. A sentence list sheet may be displayed as an editing screen (sentence list sheet screen), the sentence playback time and file size may be displayed, and the sentence may be edited while viewing the display contents.

また本実施の形態では、センテンスのテキスト入力を受け付けフレーズに分割するセンテンス分割処理(P3)を行ってもよい。例えばセンテンスシート画面のセンテンス欄からセンテンスのテキスト入力を受け付け、入力されたセンテンスのテキストをフレーズに分割する処理をおこなうようにしてもよい。   In the present embodiment, sentence division processing (P3) may be performed in which sentence text input is divided into accepted phrases. For example, a sentence text input may be received from the sentence column of the sentence sheet screen, and the input sentence text may be divided into phrases.

図6(A)〜(C)は、フレーズリスト作成とフレーズ分割処理の成功例と失敗例を模式的に示した図である。   FIGS. 6A to 6C are diagrams schematically showing successful examples and failed examples of phrase list creation and phrase division processing.

例えば図27(A)に示すようにフレーズデータ「AAA」200−1、「BBB」200−2、「CCC」200−3を読み込み、これらに基づきフレーズリスト602を生成する。この場合、図27(B)に示すように「AAACCC」なるセンテンスが入力されると、「AAA」「BBB」というフレーズリストに記憶された2つのフレーズに分割される。分割処理は、センテンスを構成するテキストデータとフレーズに対応するテキスとデータを比較照合して、センテンスを構成するテキストデータをフレーズに対応するテキストデータに分ける処理である。センテンスを構成するテキストデータを第1のテキスト部分、第2のテキスト部分、・・。第nのテキスト部分に分割した場合、第1のテキスト部分、第2のテキスト部分、・・。第nのテキスト部分のすべてがフレーズリストに登録されているフレーズのテキストデータと一致した場合に分割処理が成功したとしてもよい。
センテンス分割結果はセンテンスリストシートに表示されるようにいてもよい。
For example, as shown in FIG. 27A, the phrase data “AAA” 200-1, “BBB” 200-2, and “CCC” 200-3 are read, and the phrase list 602 is generated based on these. In this case, as shown in FIG. 27B, when the sentence “AAACCC” is input, the sentence is divided into two phrases stored in the phrase lists “AAA” and “BBB”. The division processing is processing for comparing text data constituting the sentence with text corresponding to the phrase and data, and dividing the text data constituting the sentence into text data corresponding to the phrase. The text data constituting the sentence is a first text part, a second text part,. When divided into the nth text part, the first text part, the second text part,... The division process may be successful when all of the nth text part matches the text data of the phrase registered in the phrase list.
The sentence division result may be displayed on the sentence list sheet.

例えば図27(C)に示すように「AAACBC」なるセンテンスが入力されると、「CBC」というフレーズデータがセンテンスリスト602に登録されていないためセンテンスをフレーズに分割することができない。このような場合にはセンテンス分割結果がセンテンスリストシートに表示されないようにしてもよいし、分割できないことを警告する表示をおこなってもよい。このようにするとセンテンスに誤りがあってフレーズに分割できなかった場合も表示によりすぐにわかるため、すぐに修正が出来る。   For example, as shown in FIG. 27C, when the sentence “AAACBC” is input, the phrase data “CBC” is not registered in the sentence list 602, so that the sentence cannot be divided into phrases. In such a case, the sentence division result may not be displayed on the sentence list sheet, or a warning may be displayed that the sentence cannot be divided. In this way, even if there is an error in the sentence and it could not be divided into phrases, it can be immediately confirmed by the display, so it can be corrected immediately.

また本実施の形態では、指定されたフレーズに基づきセンテンスを生成するフレーズ結合処理(P4)をおこなってもよい。例えばフレーズデータ「AAA」と「BBB」がこの順序で選択された場合、フレーズデータ「AAA」と「BBB」をつなぎ合わせてセンテンス「AAABBB」を生成してもよい。   Moreover, in this Embodiment, you may perform the phrase coupling | bonding process (P4) which produces | generates a sentence based on the designated phrase. For example, when the phrase data “AAA” and “BBB” are selected in this order, the phrase data “AAABBBB” may be generated by connecting the phrase data “AAA” and “BBB”.

また本実施の形態では、生成したセンテンスやフレーズの音声再生を行わせ、再生評価を行う生成評価処理(P6)を行っても良い。生成評価処理(P6)は、センテンスを構成するフレーズの特定情報に基づきセンテンスを構成するフレーズに対応した音声データをフレーズデータ記憶部から読み出して、センテンス情報のシーケンス情報に従って読み出した音声データの音声を再生出力する処理を行ってもよい。またセンテンス情報の待ち時間情報に基づき、フレーズの前又はフレーズ間に無音区間を設定して音声データの音声を再生出力をおこなってもよい。   Further, in the present embodiment, the generation evaluation process (P6) may be performed in which the generated sentence or phrase is reproduced and the reproduction evaluation is performed. In the generation evaluation process (P6), the voice data corresponding to the phrase constituting the sentence is read from the phrase data storage unit based on the specific information of the phrase constituting the sentence, and the voice of the voice data read according to the sequence information of the sentence information is read. Processing for reproduction output may be performed. Further, based on the waiting time information of the sentence information, a silent section may be set before the phrase or between the phrases, and the voice data may be reproduced and output.

また本実施の形態では、フレーズの前又はフレーズ間に遅延時間を設定し、フレーズ間隔の調整を行うフレーズ間隔の調整処理(P7)を行ってもよい。フレーズ間隔の調整処理(P7)として、センテンスを構成するフレーズの前及びフレーズ間の少なくとも1つについて設定する無音区間の長さに関する待ち時間情報に関する編集入力を受け付け、待ち時間情報を含むセンテンス情報の生成を行ってもよい。   Moreover, in this Embodiment, the delay time may be set before a phrase or between phrases, and the phrase space | interval adjustment process (P7) which adjusts a phrase space | interval may be performed. As the phrase interval adjustment process (P7), an edit input related to the waiting time information regarding the length of the silent section set for at least one of the phrases constituting the sentence and between the phrases is accepted, and the sentence information including the waiting time information is received. Generation may be performed.

また本実施の形態では、作成したセンテンスを発話させるために必要な音声データをメモリに格納する際のROMイメージ(ROMに格納するデータの内容)を生成するROMイメージ生成処理(P9)をおこなってもよい。ROMイメージ生成処理(P9)では、フレーズ編集情報に基づき音声データメモリに格納する格納対象フレーズを抽出し、抽出されたフレーズの音声データをフレーズデータ記憶部から読み出して、音声データメモリに書き込むメモリ書き込み情報(ROMイメージ)を生成してもよい。このようにすると複数のセンテンスで使用されているフレーズについては同じ音声データが重複して書き込まれないようにメモリ書き込み情報(ROMイメージ)を生成することができる。   In the present embodiment, ROM image generation processing (P9) for generating a ROM image (contents of data stored in the ROM) when storing voice data necessary for speaking the created sentence in the memory is performed. Also good. In the ROM image generation process (P9), a storage target phrase to be stored in the voice data memory is extracted based on the phrase editing information, and the voice data of the extracted phrase is read from the phrase data storage unit and written to the voice data memory. Information (ROM image) may be generated. In this way, memory writing information (ROM image) can be generated so that the same audio data is not written redundantly for phrases used in a plurality of sentences.

また本実施の形態では、センテンス音声を合成するためにROMイメージから読み出す音声データとその再生順序を指示するセンテンス音声再生コマンドを生成するセンテンス音声再生コマンド生成処理(P9)をおこなってもよい。センテンス音声再生コマンド生成処理(P9)では、センテンス情報のフレーズ特定情報に基づきセンテンスを構成するフレーズに対応した音声データを音声データメモリに格納されたメモリ書き込み情報(ROMイメージ)から読み出して、センテンス情報のシーケンス情報に従って読み出した音声データの音声を再生出力するための指示を行うセンテンス音声再生コマンドを生成してもよい。   In this embodiment, sentence voice reproduction command generation processing (P9) for generating voice data to be read from the ROM image and a sentence voice reproduction command for instructing the reproduction order in order to synthesize sentence voice may be performed. In the sentence voice reproduction command generation process (P9), the voice data corresponding to the phrase constituting the sentence is read from the memory writing information (ROM image) stored in the voice data memory based on the phrase specifying information of the sentence information, and the sentence information is read. A sentence voice reproduction command for giving an instruction to reproduce and output the voice of the voice data read in accordance with the sequence information may be generated.

2.表計算ソフトウエアを用いた実施の具体例
図5〜図25は、表計算アプリケーションソフトウエアを用いて本ツールを実現する例について説明するための図である。
2. Specific Example of Implementation Using Spreadsheet Software FIGS. 5 to 25 are diagrams for explaining an example of realizing this tool using spreadsheet application software.

本ツールは汎用の表計算ソフトウエアのマクロ機能を利用して実現することもできる。   This tool can also be realized using the macro function of general-purpose spreadsheet software.

本ツールでは、TTSシステム等で音声作成ツールにて作成された音声データをフレーズとして取り扱い、フレーズを繋いで音声ガイドメッセージとなるセンテンスを編集する。音声データとしては、EOV形式、ADPCM形式、AAC−LC形式等をもちいてもよい。   In this tool, voice data created by a voice creation tool in a TTS system or the like is handled as a phrase, and a sentence that becomes a voice guide message is edited by connecting phrases. As the audio data, an EOV format, an ADPCM format, an AAC-LC format, or the like may be used.

本ツールの各機能について説明する。本ツールの画面は、図5に示すようなダイアログ画面と図6や図7に示すような表形式シート画面から構成されている。   Each function of this tool will be described. The screen of this tool is composed of a dialog screen as shown in FIG. 5 and a tabular sheet screen as shown in FIGS.

ダイアログ画面400のシート選択部410において、センテンスリスト412、フレーズリスト414、パラメータ416のラジオボタンを選択することによりセンテンスリスト412、フレーズリスト414、パラメータ416のシートの表示を切り替えることができる。   By selecting radio buttons of the sentence list 412, the phrase list 414, and the parameter 416 in the sheet selection unit 410 of the dialog screen 400, the display of the sheets of the sentence list 412, the phrase list 414, and the parameter 416 can be switched.

フレーズリスト420のアップデートボタン422を選択すると、音声データが入っているフォルダから、フレーズリストシートへ、編集に必要な音声データを読み込み、フレーズ一覧を作成する。   When the update button 422 of the phrase list 420 is selected, audio data necessary for editing is read from a folder containing audio data into a phrase list sheet, and a phrase list is created.

ツール430のフレーズ分割ボタン432を選択すると、センテンスシートのセンテンス欄に入力されたセンテンスを、フレーズリストにあるフレーズ一賢から一致するフレーズを選び出して並べ、センテンスを構成するフレーズの構成を作成する。   When the phrase split button 432 of the tool 430 is selected, the sentences entered in the sentence field of the sentence sheet are selected and arranged from the phrases in the phrase list, and the phrases are configured to create a sentence.

センテンスアップデートボタン454を選択すると、フレーズ欄にあるフレーズをフレーズリストにあるフレーズと照合して一致するものをセンテンス欄に並べてセンテンスを構成する。   When the sentence update button 454 is selected, the sentences in the phrase column are matched with the phrases in the phrase list, and the matching sentences are arranged in the sentence column to form a sentence.

ツール430のプレイボタン436を選択すると、センテンス欄からフレーズの内容を再生する。   When the play button 436 of the tool 430 is selected, the contents of the phrase are reproduced from the sentence column.

センテンスリストROM440のライトアウトボタン442を選択すると、センテンス一賢からシーケンスファイル(センテンス生成情報が記憶されたファイルやセンテンス音声再生コマンドが記憶されたファイル)やROMイメージを生成する。なおシート上のすべてのセンテンスに対してシーケンスファイルが保存される。   When the light-out button 442 of the sentence list ROM 440 is selected, a sequence file (a file in which sentence generation information is stored or a file in which a sentence sound reproduction command is stored) and a ROM image are generated from the sentence. A sequence file is stored for all sentences on the sheet.

ROMイメージを生成する場合には、センテンスに使用されているフレーズは自動的にROMイメージに含むが、センテンスに使用されていないフレーズであっても、指定によりROMイメージに含ませる事が出来る。   When a ROM image is generated, phrases used in the sentence are automatically included in the ROM image, but even phrases that are not used in the sentence can be included in the ROM image by designation.

またライトアウトボタン442を選択することにより、センテンス一覧のシーケンスファイルが作成された後、トータルサイズ欄444に、データサイズの合計値が表示される。パラメータのROMイメージサイズで指定したサイズを上回った場合は赤字で表示される。本実施の形態では同じフレーズを複数のセンテンスに使用していても、1つ分のフレーズデータサイズしか、加算されない。この値は、保持され、次回起動時にも表示されるようにしてもよい。   Also, by selecting the light-out button 442, a sequence file of a sentence list is created, and then the total value of the data size is displayed in the total size column 444. If it exceeds the size specified by the parameter ROM image size, it is displayed in red. In this embodiment, even if the same phrase is used for a plurality of sentences, only one phrase data size is added. This value may be retained and displayed at the next startup.

またライトアウトボタン442を選択することにより、センテンス一覧のシーケンスファイルが作成された後、トータルタイム欄446に、センテンスの合計再生時間が表示される。   Also, by selecting the light-out button 442, a sentence list sequence file is created, and the total sentence playback time is displayed in the total time field 446.

本実施の形態では、センテンスリストシート、フレーズリストシート、パラメータシートの各シートを含む。   In the present embodiment, a sentence list sheet, a phrase list sheet, and a parameter sheet are included.

図6はセンテンスリストシート(表示画像)の一例である。本実施の形態では例えばパーソナルコンピュータの表示部にセンテンスリストシート500が表示されるようにしてもよい。そしてセンテンスリストソート画面でセンテンスが編集された結果によってセンテンス情報やフレーズ編集情報が生成(作成や更新)されてもよい。   FIG. 6 is an example of a sentence list sheet (display image). In the present embodiment, for example, the sentence list sheet 500 may be displayed on the display unit of a personal computer. Then, sentence information and phrase editing information may be generated (created or updated) based on the result of editing the sentence on the sentence list sort screen.

インデックス欄510は、センテンスにアクセスする際のインデックス情報である。   The index column 510 is index information for accessing a sentence.

ID欄520は、センテンスの識別情報となるIDである。シーケンスファイルを作成するときに、このIDでファイル名を生成するようにしてもよい。   The ID column 520 is an ID that serves as sentence identification information. When creating a sequence file, a file name may be generated with this ID.

センテンス欄530は、再生されるセンテンスの内容である。フレーズを並べてセンテンスを作成することも可能であり、キーボード等を用いて直接センテンスを入力することも可能である。サイズ欄540は、センテンスを構成するフレーズと待ち時間の合計データサイズを表示する。タイム欄550は、センテンスの再生時間を表示する。コメント欄560はセンテンスに対するコメント欄として活用できる。待ち時間欄570はフレーズの前に設定する待ち時間を設定する欄であり、各フレーズに対応して設けられる。   The sentence column 530 is a content of a sentence to be reproduced. It is also possible to create a sentence by arranging phrases, and it is also possible to directly input a sentence using a keyboard or the like. The size column 540 displays the total data size of phrases and waiting times that constitute a sentence. The time column 550 displays the sentence playback time. The comment field 560 can be used as a comment field for a sentence. The waiting time column 570 is a column for setting a waiting time set before a phrase, and is provided corresponding to each phrase.

フレーズ欄580はセンテンスを構成するフレーズを表示する欄で例えば最大64個まで表示できるようにしてもよい。なお各フレーズに対応して待ち時間欄570が設けられるので、フレーズ欄がn個表示されている場合には、各フレーズ毎に待ち時間欄が設けられるので待ち時間欄n個表示されている。   The phrase column 580 is a column for displaying phrases constituting a sentence, and for example, a maximum of 64 phrases may be displayed. Since a waiting time column 570 is provided corresponding to each phrase, when n phrase columns are displayed, a waiting time column is provided for each phrase, so that n waiting time columns are displayed.

図7はフレーズリストシート(表示画像)の一例である。本実施の形態では例えばパーソナルコンピュータの表示部にフレーズリストシート600が表示されるようにしてもよい。本実施の形態では、読み込んだ音声作成ツールの音声データを、フレーズとして管理する。フレーズリストシート600は、フレーズデータやフレーズ編集情報に基づき生成され、編集結果に応じて更新さされるようにしてもよい。   FIG. 7 is an example of a phrase list sheet (display image). In the present embodiment, for example, phrase list sheet 600 may be displayed on the display unit of a personal computer. In this embodiment, the read voice data of the voice creation tool is managed as a phrase. The phrase list sheet 600 may be generated based on phrase data or phrase editing information, and may be updated according to the editing result.

インデックス欄610は、フレーズにアクセスする際のインデックス情報である。ID欄620は、フレーズの識別情報となるIDであり、読み込まれた音声データに対するフレーズの管理IDとして使用される。フレーズネーム欄630には、フレーズとして読み込まれた音声データのファイル名が表示される。フレーズ欄には、フレーズとして読み込まれた音声データの内容(例えば読み方や表示)を表すテキストデータ表示される。サイズ欄650には、フレーズとして読み込まれた音声データのサイズが表示される。タイム欄660には、フレーズとして読み込まれた音声データの再生時間(m単位)が表示される。使用回数欄670には、フレーズとして読み込まれた音声データが作成されたセンテンス全体で、何回使われているか表示される。ROM書き込み欄680に、値が書かれている場合はライトアウトボタン(図5の442)を押した際にそのフレーズがROMイメージの中に含まれる。なおセンテンスに使用されているフレーズについては、ライトアウト実行の際に自動的に1の値が書かれ、使用されていないフレーズについては、自動的に空欄となるようにしてもよい。またこの欄にあらかじめ1以外の任意の値を書き込んでおいた場合には、使用されている/使用されていないに関わらずROMイメージに含めるようにしてもよい。   The index column 610 is index information for accessing a phrase. The ID column 620 is an ID serving as phrase identification information, and is used as a phrase management ID for the read audio data. In the phrase name column 630, the file name of the audio data read as a phrase is displayed. In the phrase column, text data representing the contents (for example, reading and display) of the audio data read as a phrase is displayed. The size column 650 displays the size of audio data read as a phrase. In the time column 660, the reproduction time (m unit) of the audio data read as a phrase is displayed. The number-of-uses column 670 displays how many times the sentence is used in the entire sentence in which the voice data read as a phrase is created. When a value is written in the ROM writing field 680, the phrase is included in the ROM image when the light-out button (442 in FIG. 5) is pressed. It should be noted that a value of 1 is automatically written for a phrase used in a sentence when a write-out is performed, and a blank is automatically entered for a phrase that is not used. If an arbitrary value other than 1 is previously written in this field, it may be included in the ROM image regardless of whether it is used or not used.

図8はパラメータシート(表示画像)の一例である。本実施の形態では例えばパーソナルコンピュータの表示部にパラメータシート700が表示されるようにしてもよい。ここでは、本ツールに関するパラメータを設定することができる。   FIG. 8 shows an example of a parameter sheet (display image). In the present embodiment, for example, the parameter sheet 700 may be displayed on a display unit of a personal computer. Here you can set parameters for this tool.

待ち時間デフォルト値710は、センテンス作成時に、フレーズの前又はフレーズ間に設定されるデフォルトの待ち時間(単位はms)である。センテンスシートにおいて待ち時間(図6の570)が設定されている場合はその値を優先するようにしてもよい。   The waiting time default value 710 is a default waiting time (unit: ms) set before a phrase or between phrases when a sentence is created. When a waiting time (570 in FIG. 6) is set in the sentence sheet, the value may be prioritized.

シーケンスファイルフォーマット720は、シーケンスファイル生成において、出力するデータをバイナリ形式にするか、テキスト形式にするかを設定するパラメータである。テキスト形式にすると、各行に待ち時間値とフレーズの音声ファイル名称をカンマで区切って並べたテキストファイルを出力するようにしてもよい。   The sequence file format 720 is a parameter for setting whether to output data to be in binary format or text format in sequence file generation. In the text format, a text file in which a waiting time value and a phrase audio file name are separated by commas may be output on each line.

図28は本ツールでの作業手順について説明するためのフローチャートである。   FIG. 28 is a flowchart for explaining the work procedure of this tool.

まずフレーズに対応した音声データの準備を行う(ステップS10)。フレーズ編集を行うための音声データを、フォルダの中にまとめる。   First, voice data corresponding to a phrase is prepared (step S10). Collect audio data for phrase editing in a folder.

次にフレーズに対応した音声データの読み込みを行う(ステップS20)。本ツールのアップデート画面において、アップデートボタン(図5の422)を選択すると、フォルダ選択ダイアログが表示されるので、フレーズに音声データが入っているフォルダを選択し、OKボタンを選択すると、ファイル選択ダイアログが閉じ、表示がフレーズリストシートに自動的に切り替わるようにしてもよい。フレーズに対応した音声データが読み込まれ、図9に示すようにフレーズリストシートにフレーズ一覧が作成される。   Next, audio data corresponding to the phrase is read (step S20). When the update button (422 in FIG. 5) is selected on the update screen of this tool, a folder selection dialog is displayed. Select a folder containing audio data in the phrase and select the OK button to select the file selection dialog. May be closed and the display may be automatically switched to the phrase list sheet. Audio data corresponding to the phrase is read, and a phrase list is created on the phrase list sheet as shown in FIG.

次にセンテンスシート画面において音声ガイドメッセージとして発話させたいセンテンスを作成する(ステップS30)。ダイアログ画面からセンテンスリストシートを選択してセンテンスを作成することができる。センテンスの作成方法には、センテンスを直接入力する方法と、読み込んだフレーズをつなげていく方法がある。センテンスを直接入力す場合、作成したいセンテンスをセンテンスリストのセンテンス欄に入力する。例えば図10に示すようにセンテンスリスト500のセンテンス欄550に「お風呂の温度は41度です」という文書を入力する。   Next, a sentence to be uttered as a voice guide message is created on the sentence sheet screen (step S30). A sentence can be created by selecting a sentence list sheet from the dialog screen. There are two ways to create a sentence: enter the sentence directly and connect the imported phrases. When entering a sentence directly, enter the sentence you want to create in the sentence field of the sentence list. For example, as shown in FIG. 10, a document “Bath temperature is 41 degrees” is entered in the sentence column 550 of the sentence list 500.

入力したセンテンスを構成するフレーズは、フレーズリストにデータとして読み込まれている必要がある。この例では、図11に示す「お風呂の」804、「温度は」806、「41度です」802以下のデータがセンテンスを構成するフレーズとして使用される。   Phrases that make up the sentence you entered must be loaded as data in the phrase list. In this example, data of “bath” 804, “temperature is 806”, “is 41 degrees” 802 or less shown in FIG. 11 is used as a phrase constituting the sentence.

入力後、ダイアログ画面のフレーズ分割ボタンを選択すると、センテンスリストシート500のセンテンス欄に入力されたセンテンス810が、複数のフレーズに展開される。結果として、フレーズリストシートに読み込まれているフレーズから、適切なフレーズデータが選択され、図12に示すように選択されたフレーズデータがフレーズリストのフレーズ欄812、814、816に表示される。   When the phrase split button on the dialog screen is selected after the input, the sentence 810 input in the sentence column of the sentence list sheet 500 is expanded into a plurality of phrases. As a result, appropriate phrase data is selected from the phrases read in the phrase list sheet, and the selected phrase data is displayed in the phrase columns 812, 814, and 816 of the phrase list as shown in FIG.

なお各フレーズ欄812、814、816に対応した待ち時間欄811,813,815にはデフォルト値として100(ms)が設定されている。この設定はセンテンスリスト画面への入力により変更することができる。   Note that 100 (ms) is set as a default value in the waiting time fields 811, 813, and 815 corresponding to the phrase fields 812, 814, and 816. This setting can be changed by inputting to the sentence list screen.

読み込んだフレーズをつなげる場合には、センテンスリストのフレーズ欄に、フレーズをテキスト入力していく。入力し終わったら、ダイアログのセンテンス作成ボタンを選択する。例として、「お風呂の温度は41度です」の「41」の部分を、「41」から「49」まで変更したフレーズを作成する(図13参照)。この例では、下記のセンテンス「」部分の音声を変更することで、センテンスのバリエーションを作成する。   To connect the imported phrases, enter the text in the phrase field of the sentence list. When finished, select the Create sentence button in the dialog. As an example, a phrase in which “41” in “the bath temperature is 41 degrees” is changed from “41” to “49” is created (see FIG. 13). In this example, a sentence variation is created by changing the voice of the following sentence “”.

おふろの おんどは よんじゅう「いちど」です
この例では、図14のフレーズリストのフレーズ群820に示すデータがセンテンスを構成するフレーズとして使用される。
In this example, the data shown in the phrase group 820 of the phrase list in FIG. 14 is used as a phrase constituting the sentence.

まず、基本となるセンテンスをセンテンスシートに入力する。例えば図15の830に示すように「お風呂の温度は401度です」と入力する。文書的には「よんひゃくいちど」と読めるが、音声的には「よんじゅういちど」と再生される。このようにすると、少ないデータ構成でのバリエーションに富んだ作成が可能となる。   First, the basic sentence is input to the sentence sheet. For example, as shown by 830 in FIG. 15, “the bath temperature is 401 degrees” is input. Although it can be read as “Yonhyaku 1” in terms of document, it is played as “Yonju 1” in terms of sound. In this way, it is possible to create a rich variety with a small data configuration.

ダイアログのフレーズ分割ボタンを選択すると、832に示すように入力されているセンテンスがフレーズに展開される。そして展開されたフレーズ832を選択し、コピーして、複数のフレーズ群834を生成する。そして836に示すようにフレーズ「1度」の部分を「2度」〜「9度」に変更する。   When the phrase split button in the dialog is selected, the input sentence is expanded into a phrase as indicated by 832. The expanded phrase 832 is selected and copied to generate a plurality of phrase groups 834. Then, as indicated by 836, the phrase “1 degree” is changed from “2 degrees” to “9 degrees”.

そして図16に示すように、作成するセンテンスのフレーズ欄840を選択し、ダイアログのセンテンス作成ボタンを選択すると、結果として、842に示すようにセンテンス欄にフレーズを結合させた結果が入る。他のフレーズの欄を選択し、ダイアログのセンテンス作成ボタンを選択していくことで、図17の844に示すように他のセンテンスも作成することができる。   Then, as shown in FIG. 16, when the sentence phrase field 840 to be created is selected and the sentence creation button in the dialog is selected, the result of combining phrases into the sentence field is entered as shown at 842. By selecting another phrase field and selecting a sentence creation button in the dialog, another sentence can be created as shown at 844 in FIG.

センテンスが完成しなかった場合は、図18の850に示すようにセンテンス欄の文字がグレー表示されるので、作成に必要なフレーズを音声作成ツールにて作成し、フレーズを追加する等の対処を行う。   If the sentence is not completed, the text in the sentence column will be grayed out as shown at 850 in FIG. 18, so create a phrase necessary for creation with the voice creation tool and add a phrase. Do.

センテンスを作成すると、フレーズは用意できているのに、うまく選択されず、センテンスが未完成になる場合がある。その場合の回避方法として以下のような構成を採用してもよい。   When you create a sentence, the phrase is ready, but it is not selected properly, and the sentence may be incomplete. In such a case, the following configuration may be adopted as an avoidance method.

例えばセンテンス中に区切りを明示するようにしてもよい。図19の860に示すように「401度」と入力すると、「よんひゃくいちど」と読ませるのか、「よんじゅういちど」と読ませるのか、はっきりしなくなる場合がある。そのような場合、センテンス中に半角スペースを挿入することで、区切りとして指定することができる。図19の862に示すように明示的に「401度」と入力することで、「よんじゅういちど」と読ませることができる。   For example, a break may be specified in the sentence. When “401 degrees” is input as indicated by reference numeral 860 in FIG. 19, it may not be clear whether “Yonhyaku 1” or “Yonju 1” is read. In such a case, it can be specified as a delimiter by inserting a half-width space in the sentence. By explicitly inputting “401 degrees” as indicated by reference numeral 862 in FIG. 19, it is possible to read “40 times”.

また同じ読み方の違うフレーズを使用するようにしてもよい。センテンスで使用されるフレーズは、フレーズリストの先頭から見つけるため、図20の870、872のように同じ読み方のフレーズが複数ある場合、うまく自動選択されない場合がある。このような場合音声データファイルの一部に対し、テキストエディタでの編集をおこうようにしてもよい。例えば選択させたいフレーズの音声ファイルの付属情報が記憶されたファイルを選択し、テキストエディタで開き、編集するようにしてもよい。図21(A)(B)に示すように音声ファイルの付属情報が記憶されたファイルには、カンマで区切られた3つの文字列(テキスト表示情報892、データサイズ894、再生時間896)が入っている。このテキスト表示情報892の文字列に記号(この例では「*」)を追加する。   Moreover, you may make it use a different phrase of the same reading. Since the phrase used in the sentence is found from the top of the phrase list, if there are a plurality of phrases that are read in the same way as in 870 and 872 in FIG. In such a case, a part of the audio data file may be edited with a text editor. For example, a file in which the attached information of the audio file of the phrase to be selected is selected, opened with a text editor, and edited. As shown in FIGS. 21 (A) and 21 (B), the file in which the attached information of the audio file is stored contains three character strings (text display information 892, data size 894, playback time 896) separated by commas. ing. A symbol (“*” in this example) is added to the character string of the text display information 892.

そして再度、フレーズリストシートの一覧を更新すると、図22の898に示すようにフレーズリストのフレーズ欄が変更した内容に更新されている。   When the list of the phrase list sheet is updated again, the phrase column of the phrase list is updated to the changed content as indicated by 898 in FIG.

そしてセンテンスリストにて、センテンスに対し、追加した記号を記入して入力して、センテンス分割ボタンを選択すると、図23に示すようにテキスト表示情報が変更された音声が、フレーズとして選択される。   Then, in the sentence list, when an added symbol is entered and input to the sentence and the sentence division button is selected, the voice whose text display information is changed is selected as a phrase as shown in FIG.

また同じ部分が重複するフレーズが複数ある場合に、センテンスで使用されるフレーズを、フレーズリストの先頭から見つけると、所望のものが自動選択されない場合がある。このように同じ部分が重複するフレーズがある場合、センテンス上において、フレーズの区切りを明確にすることにより、適切なフレーズを選択させるようにしてもよい。例えば図24(A)に示すように「電源を」を含むフレーズが複数ある場合(902、904参照)、906に示すように「お風呂の電源を切ってください」と入力すると904の「電源を切って」がフレーズとして選択される場合がある。このような場合図24(B)の908に示すように、センテンスリストのセンテンス欄で、区切りの場所に区切り記号として半角スペース910を挿入するようにしてもよい。この例では「電源を」の後ろに半角スペース910を挿入している。このようにしてフレーズ分割ボタンを選択すると、区切りに対応したフレーズを選択させることができる。   In addition, when there are a plurality of phrases having the same part, if a phrase used in the sentence is found from the top of the phrase list, a desired one may not be automatically selected. When there are phrases with the same part overlapping in this way, an appropriate phrase may be selected by clarifying the phrase delimiters on the sentence. For example, as shown in FIG. 24A, when there are a plurality of phrases including “power on” (see 902 and 904), when “turn off the bath power” is input as shown in 906, “power supply” of 904 May be selected as a phrase. In such a case, as indicated by reference numeral 908 in FIG. 24B, a half-width space 910 may be inserted as a delimiter symbol at the delimiter in the sentence column of the sentence list. In this example, a half-width space 910 is inserted behind the “power supply”. When the phrase division button is selected in this way, the phrase corresponding to the break can be selected.

次にセンテンスシート画面において、センテンスの調整を行う(ステップS40)。   Next, the sentence is adjusted on the sentence sheet screen (step S40).

センテンス作成後、各フレーズの間隔を調整することができます。作成したセンテンスの各遅延時間欄にms単位の時間を入力することで、フレーズの前に設定される無音区間の長さを設定することができる。センテンスの調整結果は、ダイアログの再生ボタンを選択することによって、センテンスを発話させ、音で確認することができる。   After creating a sentence, you can adjust the interval between phrases. By inputting the time in ms unit in each delay time column of the created sentence, the length of the silent section set before the phrase can be set. The sentence adjustment result can be confirmed by sound by selecting the playback button in the dialog to utter the sentence.

次に作成したセンテンスのシーケンスファイル(例えばセンテンス音声再生コマンド等)とROMイメージを生成する(ステップS50)。ダイアログ画面のライトアウトボタンを選択すると、シーケンスファイル(例えばセンテンス音声再生コマンド等)やROMイメージを生成することができる。生成されたファイルサイズの合計が、サイズ合計の欄(図5の444)に表示される。   Next, the generated sentence sequence file (for example, a sentence voice reproduction command) and a ROM image are generated (step S50). When the light-out button on the dialog screen is selected, a sequence file (for example, a sentence sound reproduction command) or a ROM image can be generated. The total of the generated file sizes is displayed in the size total column (444 in FIG. 5).

ROMイメージを生成する場合には、フレーズリストのROM書き込み欄680が空欄でないフレーズがROMイメージの中に納められる。
この例ではROM書き込み欄680の10列目と11列目に「O」が入っている事で(912、914参照)、使用回数欄670の回数値のあり/なしに関わらずROMイメージに収めることができる。
When generating a ROM image, a phrase in which the ROM writing column 680 of the phrase list is not blank is stored in the ROM image.
In this example, “O” is entered in the 10th and 11th columns of the ROM write column 680 (see 912 and 914), and the ROM image is stored in the ROM image regardless of the presence / absence of the count value in the use count column 670. be able to.

本ツールではフレーズリスト情報に基づきのROMに書き込むフレーズの音声ファイルを合計して合計値を求め、合計値に基づきROMサイズの参考値を決定する。合計値自体をROMサイズの参考値として決定しても良いし、合計値とROMU際す参考値の対応関係を定めておいて、対応関係に基づきサイズ参考値を決定してもい。   In this tool, the audio files of phrases written in the ROM based on the phrase list information are totaled to obtain a total value, and a reference value of the ROM size is determined based on the total value. The total value itself may be determined as the reference value for the ROM size, or the correspondence between the total value and the reference value for the ROMU may be determined, and the size reference value may be determined based on the correspondence.

また本ツールではセンテンスリスト情報及びセンテンスを構成するフレーズ情報とセンテンスを構成するフレーズに対応した待ち時間情報に基づき、センテンスの音声再生時間(複数のセンテンスがある場合には複数のセンテンスの音声再生時間の合計)を演算し、ダイアログの合計時間欄446に音声再生時間の合計を表示する。   This tool also uses the sentence list information, the phrase information that constitutes the sentence, and the waiting time information corresponding to the phrase that constitutes the sentence, and the voice playback time of the sentence (if there are multiple sentences, the voice playback time of multiple sentences And the total audio playback time is displayed in the total time column 446 of the dialog.

本実施の形態によれば、音声ガイドメッセージであるセンテンスを構成するのに使われたフレーズが自動で選択されるため入れ忘れのようなヒューマンエラーがなく、センテンスには使われなかったものの意図的に入れておきたいフレーズも含めることが出来るため自由度が高い。   According to the present embodiment, the phrase used to compose the sentence that is the voice guidance message is automatically selected, so there is no human error such as forgetting to put it in, but it was intentionally not used in the sentence. Phrases you want to include can also be included, so there is a high degree of freedom.

またファイル長や発音時間を管理しているので、ROM化されたときのサイズがわかる。またフレーズ間に待ち時間(ディレィ)を挿入する事が出来き、その場で発話させて確認することができるので便利である。   Moreover, since the file length and pronunciation time are managed, the size when ROMized is known. Also, it is convenient because you can insert a waiting time between phrases, and you can utter and check on the spot.

また自動的に必要な音声ファイルをまとめてROMイメージとして出力するので、作業効率の向上させ、人為的なミスも含むことができる。   Further, since necessary audio files are automatically output as a ROM image, work efficiency can be improved and human error can be included.

また例えばセンテンスの一部を変更するだけでバリエーションを含むセンテンスを効率よく作成できる。   In addition, for example, a sentence including a variation can be efficiently created only by changing a part of the sentence.

また必要なセンテンスを再生するために必要なメモリサイズを知ることが出来るので、格納する音声ファイルを絞ったり追加したりする等のコストバランスの調整が容易になる。   In addition, since it is possible to know the memory size necessary for reproducing a necessary sentence, it becomes easy to adjust the cost balance such as narrowing down or adding an audio file to be stored.

フレーズ間の待ち時間(ディレィ)を調整する事で発声のニュアンスをコントロールが容易におこなえるようになる。   By adjusting the waiting time (delay) between phrases, the nuance of utterance can be controlled easily.

なお、本発明は本実施形態に限定されず、本発明の要旨の範囲内で種々の変形実施が可能である。   In addition, this invention is not limited to this embodiment, A various deformation | transformation implementation is possible within the range of the summary of this invention.

本発明は、実施の形態で説明した構成と実質的に同一の構成(例えば、機能、方法及び結果が同一の構成、あるいは目的及び効果が同一の構成)を含む。また、本発明は、実施の形態で説明した構成の本質的でない部分を置き換えた構成を含む。また、本発明は、実施の形態で説明した構成と同一の作用効果を奏する構成又は同一の目的を達成することができる構成を含む。また、本発明は、実施の形態で説明した構成に公知技術を付加した構成を含む。   The present invention includes configurations that are substantially the same as the configurations described in the embodiments (for example, configurations that have the same functions, methods, and results, or configurations that have the same objects and effects). In addition, the invention includes a configuration in which a non-essential part of the configuration described in the embodiment is replaced. In addition, the present invention includes a configuration that exhibits the same operational effects as the configuration described in the embodiment or a configuration that can achieve the same object. Further, the invention includes a configuration in which a known technique is added to the configuration described in the embodiment.

本実施の形態の音声編集システムの機能ブロック図の一例。An example of a functional block diagram of the voice editing system of the present embodiment. フレーズデータとフレーズ編集情報について説明するための図。The figure for demonstrating phrase data and phrase edit information. センテンス情報について説明するための図である。It is a figure for demonstrating sentence information. 図4(A)はメモリ書き込み情報(ROMイメージ)の生成過程について説明するための図。図4(B)はメモリ書き込み情報(ROMイメージ)の使用形態について説明するための図。FIG. 4A is a diagram for explaining a process of generating memory write information (ROM image). FIG. 4B is a diagram for explaining how to use the memory writing information (ROM image). 表計算アプリケーションソフトウエアを用いて本ツールを実現する例Example of realizing this tool using spreadsheet application software 表計算アプリケーションソフトウエアを用いて本ツールを実現する例Example of realizing this tool using spreadsheet application software 表計算アプリケーションソフトウエアを用いて本ツールを実現する例Example of realizing this tool using spreadsheet application software 表計算アプリケーションソフトウエアを用いて本ツールを実現する例Example of realizing this tool using spreadsheet application software 表計算アプリケーションソフトウエアを用いて本ツールを実現する例Example of realizing this tool using spreadsheet application software 表計算アプリケーションソフトウエアを用いて本ツールを実現する例Example of realizing this tool using spreadsheet application software 表計算アプリケーションソフトウエアを用いて本ツールを実現する例Example of realizing this tool using spreadsheet application software 表計算アプリケーションソフトウエアを用いて本ツールを実現する例Example of realizing this tool using spreadsheet application software 表計算アプリケーションソフトウエアを用いて本ツールを実現する例Example of realizing this tool using spreadsheet application software 表計算アプリケーションソフトウエアを用いて本ツールを実現する例Example of realizing this tool using spreadsheet application software 表計算アプリケーションソフトウエアを用いて本ツールを実現する例Example of realizing this tool using spreadsheet application software 表計算アプリケーションソフトウエアを用いて本ツールを実現する例Example of realizing this tool using spreadsheet application software 表計算アプリケーションソフトウエアを用いて本ツールを実現する例Example of realizing this tool using spreadsheet application software 表計算アプリケーションソフトウエアを用いて本ツールを実現する例Example of realizing this tool using spreadsheet application software 表計算アプリケーションソフトウエアを用いて本ツールを実現する例Example of realizing this tool using spreadsheet application software 表計算アプリケーションソフトウエアを用いて本ツールを実現する例Example of realizing this tool using spreadsheet application software 表計算アプリケーションソフトウエアを用いて本ツールを実現する例Example of realizing this tool using spreadsheet application software 表計算アプリケーションソフトウエアを用いて本ツールを実現する例Example of realizing this tool using spreadsheet application software 表計算アプリケーションソフトウエアを用いて本ツールを実現する例Example of realizing this tool using spreadsheet application software 表計算アプリケーションソフトウエアを用いて本ツールを実現する例Example of realizing this tool using spreadsheet application software 表計算アプリケーションソフトウエアを用いて本ツールを実現する例Example of realizing this tool using spreadsheet application software 本実施の形態の音声編集ツールで行われる各処理について説明するための図。The figure for demonstrating each process performed with the audio | voice editing tool of this Embodiment. 図27(A)〜(C)は、本実施の形態の音声編集ツールで行われる各処理について説明するための図。27A to 27C are diagrams for explaining each process performed by the voice editing tool according to the present embodiment. 本ツールでの作業手順について説明するためのフローチャート。The flowchart for demonstrating the work procedure by this tool.

符号の説明Explanation of symbols

1 音声合成IC、20 内蔵ROM、30 TTSツール、50 TTS音声合成用辞書、100 音声編集ツール(プログラム、システム)、110 処理部、120 センテンス編集処理部、122 センテンス情報精製処理部、124 フレーズ編集情報精製部、130 メモリ書き込み情報(ROMイメージ)生成部、132 センテンス音声再生コマンド生成部、140 センテンス音声再生出力処理部、150 不揮発性記憶部、152 メモリ書き込み情報、154 センテンス音声再生コマンド、160 操作部、170 記憶部、172 フレーズデータ記憶部、174 センテンス情報記憶部、176 フレーズ編集情報記憶部、180 情報」記憶媒体、190 表示部、192 音出力部、196 通信部 1 speech synthesis IC, 20 built-in ROM, 30 TTS tool, 50 TTS speech synthesis dictionary, 100 speech editing tool (program, system), 110 processing unit, 120 sentence editing processing unit, 122 sentence information refining processing unit, 124 phrase editing Information refining unit, 130 Memory write information (ROM image) generation unit, 132 sentence voice playback command generation unit, 140 sentence voice playback output processing unit, 150 Non-volatile storage unit, 152 Memory write information, 154 sentence voice playback command, 160 operation , 170 storage unit, 172 phrase data storage unit, 174 sentence information storage unit, 176 phrase edit information storage unit, 180 information "storage medium, 190 display unit, 192 sound output unit, 196 communication unit

Claims (16)

コンピュータを音声編集ツールとして機能させるプログラムであって、
フレーズの音声データとフレーズのテキストデータを含むフレーズデータが記憶されたフレーズデータ記憶部と、
前記フレーズデータに基づき、センテンスの編集処理を行うセンテンス編集処理部と、
センテンスの編集処理結果に基づき、センテンスを構成するフレーズを特定するフレーズ特定情報とフレーズの再生順序に関するシーケンス情報を含むセンテンス情報の生成を行うセンテンス情報生成処理部と、してコンピュータを機能させ、
前記センテンス編集処理部は、
前記センテンスのテキストデータを受け付け、フレーズのテキストデータに基づき、受け付けたセンテンスのテキストデータを複数のフレーズに分割するセンテンス分割処理を行い、
前記センテンス情報生成処理部は、
分割されたセンテンスを構成するフレーズのフレーズ特定情報とシーケンス情報を含むセンテンス情報の生成を行うことを特徴とするプログラム。
A program that allows a computer to function as a voice editing tool,
A phrase data storage unit storing phrase data including phrase voice data and phrase text data;
A sentence editing processing unit that performs sentence editing processing based on the phrase data;
Based on the sentence editing process result, the sentence function generation processing unit for generating sentence information including phrase specifying information for specifying a phrase constituting the sentence and sequence information regarding the reproduction order of the phrases, and causing the computer to function,
The sentence editing processing unit
The sentence text data is received, and based on the phrase text data, sentence split processing is performed to divide the received sentence text data into a plurality of phrases,
The sentence information generation processing unit
A program for generating sentence information including phrase specifying information and sequence information of a phrase constituting a divided sentence.
請求項1において、
センテンスの編集処理結果に基づき、前記センテンスを構成するフレーズの編集情報を生成し、生成したフレーズ編集情報を前記フレーズデータに関連づけて保持するフレーズ編集情報生成処理部を含むことを特徴とするプログラム。
In claim 1,
A program comprising: a phrase editing information generation processing unit that generates editing information of a phrase constituting the sentence based on a sentence editing process result, and stores the generated phrase editing information in association with the phrase data.
請求項2において、
前記フレーズ編集情報生成処理部は、
複数のセンテンスで使用されるフレーズ又は1つのセンテンスで複数回使用されるフレーズの使用回数をカウントしてカウント値をフレーズ編集情報として保持することをことを特徴とするプログラム。
In claim 2,
The phrase editing information generation processing unit
A program characterized by counting the number of times a phrase used in a plurality of sentences or a phrase used a plurality of times in one sentence and holding the count value as phrase editing information.
請求項2乃至3のいずれかにおいて、
前記フレーズ編集情報に基づき音声データメモリに格納する格納対象フレーズを抽出し、抽出されたフレーズの音声データをフレーズデータ記憶部から読み出して、読み出した音声データに基づき、音声データメモリに書き込むメモリ書き込み情報を生成するメモリ書き込み情報生成部を含み、
複数のセンテンスで使用されているフレーズについては同じ音声データが重複して書き込まれないようにメモリ書き込み情報を生成することを特徴とするプログラム。
In any one of Claims 2 thru | or 3.
Memory writing information for extracting a storage target phrase to be stored in the audio data memory based on the phrase editing information, reading out the audio data of the extracted phrase from the phrase data storage unit, and writing to the audio data memory based on the read audio data Including a memory write information generation unit for generating
A program for generating memory write information so that the same audio data is not written twice for phrases used in a plurality of sentences.
請求項4において、
前記メモリ書き込み情報生成部は、
前記メモリ書き込み情報の合計サイズを算出して算出結果に基づきサイズ情報を出力することを特徴とするプログラム。
In claim 4,
The memory write information generation unit
A program for calculating a total size of the memory write information and outputting size information based on the calculation result.
請求項1乃至5のいずれかにおいて、
前記センテンス編集処理部は、
フレーズデータ記憶部に記憶されているフレーズの選択入力を受け付け、選択されたフレーズに基づきセンテンスを作成するフレーズ結合処理を行い、
前記センテンス情報生成処理部は、
作成されたセンテンスを構成するフレーズのフレーズ特定情報とシーケンス情報を含むセンテンス情報の生成を行うことを特徴とするプログラム。
In any one of Claims 1 thru | or 5,
The sentence editing processing unit
Accepts phrase selection input stored in the phrase data storage unit, performs phrase combination processing to create a sentence based on the selected phrase,
The sentence information generation processing unit
A program for generating sentence information including phrase specifying information and sequence information of a phrase constituting a created sentence.
請求項1乃至6のいずれかにおいて、
前記センテンス編集処理部は、
フレーズ分割処理結果に基づき、センテンスを構成するフレーズを表示する表示出力処理を行うことを特徴とするプログラム。
In any one of Claims 1 thru | or 6.
The sentence editing processing unit
A program for performing a display output process for displaying phrases constituting a sentence based on a phrase division process result.
請求項1乃至7のいずれかにおいて、
前記センテンスのテキストデータは、フレーズの区切りを示す区切りデータを含み、
前記センテンス編集処理処理部は、
前記区切りデータに基づき前記センテンス分割処理を行うことを特徴とするプログラム。
In any one of Claims 1 thru | or 7,
The text data of the sentence includes delimiter data indicating phrase delimiters,
The sentence editing processing unit
A program for performing the sentence division processing based on the delimiter data.
請求項1乃至8のいずれかにおいて、
センテンスを構成するフレーズの特定情報に基づきセンテンスを構成するフレーズに対応した音声データをフレーズデータ記憶部から読み出して、センテンス情報のシーケンス情報に従って読み出した音声データの音声を再生出力するセンテンス音声再生出力処理部を含むことを特徴とするプログラム。
In any one of Claims 1 thru | or 8.
Sentence voice playback output processing for reading out voice data corresponding to a phrase constituting the sentence from the phrase data storage unit based on specific information of the phrase constituting the sentence and reproducing and outputting the voice data read according to the sequence information of the sentence information A program characterized by including a part.
請求項1乃至9のいずれかにおいて、
前記センテンス編集処理部は、
センテンスを構成するフレーズの前及びフレーズ間の少なくとも1つについて設定する無音区間の長さに関する待ち時間情報に関する編集入力を受け付け、
前記センテンス情報生成処理部は、
前記待ち時間情報を含むセンテンス情報の生成を行うことを特徴とするプログラム。
In any one of Claims 1 thru | or 9,
The sentence editing processing unit
Edit input related to waiting time information related to the length of the silent section set for at least one of the phrases constituting the sentence and between the phrases,
The sentence information generation processing unit
A program for generating sentence information including the waiting time information.
請求項10において、
前記センテンス音声再生出力処理部は、
センテンス情報の待ち時間情報に基づき、フレーズの前又はフレーズ間に無音区間を設定して音声データの音声を再生出力することを特徴とするプログラム。
In claim 10,
The sentence audio reproduction output processing unit
A program that reproduces and outputs the sound of sound data by setting a silent section before a phrase or between phrases based on waiting time information of sentence information.
請求項10乃至11のいずれかにおいて、
前記センテンス編集処理部は、
センテンスを編集するためのセンテンス編集画面の表示制御を行うセンテンス編集画面表示制御部を含み、
前記センテンス編集画面表示制御部は、
センテンスとセンテンスを構成するフレーズを表形式で表示し、各列は、センテンス表示欄、と当該センテンスを構成するフレーズ表示欄と、フレーズ間又はフレーズの前に設ける無音区間設定欄を含み、前記無音区間設定欄はフレーズ表示欄とフレーズ表示欄の間に設けられていることを特徴とするプログラム。
In any of claims 10 to 11,
The sentence editing processing unit
A sentence edit screen display control unit for controlling display of a sentence edit screen for editing a sentence;
The sentence edit screen display control unit
The sentence and the phrase constituting the sentence are displayed in a tabular form, and each column includes a sentence display field, a phrase display field constituting the sentence, and a silence interval setting field provided between phrases or in front of the phrase. The section setting field is provided between the phrase display field and the phrase display field.
請求項1乃至12のいずれかにおいて、
センテンス音声の再生に必要な音声データを音声データメモリからよみだしセンテンスに対応した順序で再生させるための指示を行うセンテンス音声再生コマンドを、センテンス情報に基づき生成するセンテンス音声再生コマンド生成処理部を含むことを特徴とするプログラム。
In any one of Claims 1 to 12,
A sentence voice playback command generation processing unit for generating a sentence voice playback command for instructing playback of voice data necessary for playback of sentence voice from the voice data memory in an order corresponding to the read sentence based on the sentence information; A program characterized by that.
音声編集システムであって、
フレーズの音声データとフレーズのテキストデータを含むフレーズデータが記憶されたフレーズデータ記憶部と、
前記フレーズデータに基づき、センテンスの編集処理を行うセンテンス編集処理部と、
センテンスの編集処理結果に基づき、センテンスを構成するフレーズを特定するためのフレーズ特定情報とフレーズの再生順序に関するシーケンス情報を含むセンテンス情報の生成を行うセンテンス情報生成処理部とを含み、
前記センテンス編集処理部は、
前記センテンスのテキストデータを受け付け、フレーズのテキストデータに基づき、受け付けたセンテンスのテキストデータを複数のフレーズに分割するセンテンス分割処理を行い、
前記センテンス情報生成処理部は、
分割されたセンテンスを構成するフレーズのフレーズ特定情報とシーケンス情報を含むセンテンス情報の生成を行うことを特徴とする音声編集システム。
An audio editing system,
A phrase data storage unit storing phrase data including phrase voice data and phrase text data;
A sentence editing processing unit that performs sentence editing processing based on the phrase data;
A sentence information generation processing unit for generating sentence information including phrase specifying information for specifying phrases constituting the sentence and sequence information related to the reproduction order of the phrases based on a sentence editing process result;
The sentence editing processing unit
The sentence text data is received, and based on the phrase text data, sentence split processing is performed to divide the received sentence text data into a plurality of phrases,
The sentence information generation processing unit
A speech editing system characterized by generating sentence information including phrase specifying information and sequence information of a phrase constituting a divided sentence.
不揮発性記憶部を含む、音声合成用の半導体集積回路装置の製造方法であって、
フレーズの音声データとフレーズのテキストデータを含むフレーズデータをフレーズデータ記憶部に記憶させるステップと、
前記フレーズデータに基づき、センテンスの編集処理を行うセンテンス編集処理部ステップと、
センテンスの編集処理結果に基づき、センテンスを構成するフレーズを特定するためのフレーズ特定情報とフレーズの再生順序に関するシーケンス情報を含むセンテンス情報の生成を行うセンテンス情報生成処理ステップと
前記フレーズ編集情報に基づき音声データメモリに格納する格納対象フレーズを抽出し、抽出されたフレーズの音声データをフレーズデータ記憶部から読み出して、音声データメモリに書き込むメモリ書き込み情報を生成するメモリ書き込み情報生成ステップと、
前記書き込むメモリ書き込み情報を前記不揮発性記憶部に書き込むステップとを、
を含み、
前記センテンス編集処理ステップにおいて、
前記センテンスのテキストデータを受け付け、フレーズのテキストデータに基づき、受け付けたセンテンスのテキストデータを複数のフレーズに分割するセンテンス分割処理を行い、
前記センテンス情報生成処理ステップにおいて、
分割されたセンテンスを構成するフレーズのフレーズ特定情報とシーケンス情報を含むセンテンス情報の生成を行い、
複数のセンテンスで使用されているフレーズについては同じ音声データが重複して書き込まれないようにメモリ書き込み情報を生成することを特徴とする半導体集積回路装置の製造方法。
A method of manufacturing a semiconductor integrated circuit device for speech synthesis, including a non-volatile storage unit,
Storing phrase data including phrase voice data and phrase text data in a phrase data storage unit;
A sentence editing processing unit step for performing sentence editing processing based on the phrase data;
Sentence information generation processing step for generating sentence information including phrase specifying information for specifying phrases constituting the sentence and sequence information regarding the playback order of phrases based on the sentence editing processing result, and voice based on the phrase editing information A memory write information generation step of extracting a storage target phrase to be stored in the data memory, reading out the voice data of the extracted phrase from the phrase data storage unit, and generating memory write information to be written in the voice data memory;
Writing the memory write information to be written into the nonvolatile storage unit,
Including
In the sentence editing process step,
The sentence text data is received, and based on the phrase text data, sentence split processing is performed to divide the received sentence text data into a plurality of phrases,
In the sentence information generation processing step,
Generate sentence information including the phrase identification information and sequence information of the phrases that make up the divided sentence,
A method of manufacturing a semiconductor integrated circuit device, wherein memory write information is generated so that the same audio data is not written redundantly for a phrase used in a plurality of sentences.
請求項4乃至13のいずれかに記載の音声編集プログラムによって生成されたメモリ書き込み情報が記憶された不揮発性記憶部と、
センテンス情報またはセンテンス音声再生コマンドを受け取り、受け取ったセンテンス情報またはセンテンス音声再生コマンドに基づき前記不揮発性記憶部から音声データを読み出してセンテンスに対応した音声ガイドメッセージを再生出力する音声合成部と、
を含む半導体集積回路装置。
A non-volatile storage unit in which memory write information generated by the voice editing program according to claim 4 is stored;
A voice synthesizer that receives sentence information or a sentence voice reproduction command, reads out voice data from the nonvolatile storage unit based on the received sentence information or sentence voice reproduction command, and reproduces and outputs a voice guide message corresponding to the sentence;
A semiconductor integrated circuit device.
JP2008094924A 2008-04-01 2008-04-01 Voice edition program, voice edition system, semiconductor integrated circuit device, and manufacturing method for semiconductor integrated circuit device Withdrawn JP2009251015A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008094924A JP2009251015A (en) 2008-04-01 2008-04-01 Voice edition program, voice edition system, semiconductor integrated circuit device, and manufacturing method for semiconductor integrated circuit device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008094924A JP2009251015A (en) 2008-04-01 2008-04-01 Voice edition program, voice edition system, semiconductor integrated circuit device, and manufacturing method for semiconductor integrated circuit device

Publications (1)

Publication Number Publication Date
JP2009251015A true JP2009251015A (en) 2009-10-29

Family

ID=41311850

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008094924A Withdrawn JP2009251015A (en) 2008-04-01 2008-04-01 Voice edition program, voice edition system, semiconductor integrated circuit device, and manufacturing method for semiconductor integrated circuit device

Country Status (1)

Country Link
JP (1) JP2009251015A (en)

Similar Documents

Publication Publication Date Title
US7292980B1 (en) Graphical user interface and method for modifying pronunciations in text-to-speech and speech recognition systems
US8825486B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
US10088976B2 (en) Systems and methods for multiple voice document narration
US9478219B2 (en) Audio synchronization for document narration with user-selected playback
US8498866B2 (en) Systems and methods for multiple language document narration
JP3142803B2 (en) A text-to-speech synthesizer
US20080120093A1 (en) System for creating dictionary for speech synthesis, semiconductor integrated circuit device, and method for manufacturing semiconductor integrated circuit device
US20100318362A1 (en) Systems and Methods for Multiple Voice Document Narration
EP1096472A2 (en) Audio playback of a multi-source written document
US8914291B2 (en) Method and apparatus for generating synthetic speech with contrastive stress
US20090281808A1 (en) Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device
US7099828B2 (en) Method and apparatus for word pronunciation composition
JP6003115B2 (en) Singing sequence data editing apparatus and singing sequence data editing method
JP2008146019A (en) System for creating dictionary for speech synthesis, semiconductor integrated circuit device, and method for manufacturing semiconductor integrated circuit device
JP2005031150A (en) Apparatus and method for speech processing
JP2009271209A (en) Voice message creation system, program, semiconductor integrated circuit device and method for manufacturing the same
JP2009251015A (en) Voice edition program, voice edition system, semiconductor integrated circuit device, and manufacturing method for semiconductor integrated circuit device
JP2006349787A (en) Method and device for synthesizing voices
JP7280055B2 (en) Song Pronunciation Character String Automatic Correction Program and Song Pronunciation Character String Automatic Correction Apparatus
JP2007094269A (en) Information display controller with speech output function and control program thereof
JP2016122033A (en) Symbol string generation device, voice synthesizer, voice synthesis system, symbol string generation method, and program
JP5370138B2 (en) Input auxiliary device, input auxiliary program, speech synthesizer, and speech synthesis program
JP2022144261A (en) Information processing apparatus, information processing method, and information processing program
JP2004037528A (en) Information processor and information processing method
JP2015172625A (en) Voice synthesizer, synthesized voice editing method, and synthesized voice editing computer program

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20110607