JP2022141520A - Voice synthesis symbol editing device, method and program - Google Patents
Voice synthesis symbol editing device, method and program Download PDFInfo
- Publication number
- JP2022141520A JP2022141520A JP2021041871A JP2021041871A JP2022141520A JP 2022141520 A JP2022141520 A JP 2022141520A JP 2021041871 A JP2021041871 A JP 2021041871A JP 2021041871 A JP2021041871 A JP 2021041871A JP 2022141520 A JP2022141520 A JP 2022141520A
- Authority
- JP
- Japan
- Prior art keywords
- symbol
- speech synthesis
- editing
- synthesis symbol
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
Description
本発明は、テキストと音声合成記号列とを入力として、音声合成記号列に対するユーザ操作を可能とする音声合成記号編集装置、方法及びプログラムに関する。 TECHNICAL FIELD The present invention relates to a speech synthesis symbol editing apparatus, method, and program that allow a user to operate a speech synthesis symbol string by inputting a text and a speech synthesis symbol string.
音声合成技術とは音声を人工的に合成する手法である。代表的な利用方法として、テキスト音声変換(text-to-speech,以下TTSという)が挙げられるが、例えば日本語では、TTSの入力となるテキストは通常、漢字仮名交じり文であり、例えば文字と合成すべき音声の特徴とを直接マッピングすることはその関係性の構造が極めて複雑であることから困難である。そこで抽象化された中間表現を用い、テキストから中間表現、中間表現から音声の特徴、という2段階の変換を経て、音声の特徴の情報にあう音声波形を信号処理的に生成、あるいは事前準備した波形の蓄積から適切なものを選択することで、合成音声波形を得ることができる。 Speech synthesis technology is a technique for artificially synthesizing speech. A typical usage is text-to-speech (hereafter referred to as TTS). Direct mapping of speech features to be synthesized is difficult due to the extremely complex relationship structure. Therefore, using an abstracted intermediate representation, through a two-step conversion from the text to the intermediate representation and from the intermediate representation to the speech features, we generated or prepared speech waveforms that match the speech feature information using signal processing. A synthesized speech waveform can be obtained by selecting an appropriate one from the accumulation of waveforms.
中間表現は例えば音声合成のための指令記号列(以下音声合成記号列という)であり、日本語音声合成のための音声合成記号列の例として、非特許文献1(JEITA IT-4006「日本語テキスト音声合成用記号」)が挙げられる。IT-4006では「仮名レベルの表記」と「異音レベルの表記」の二種類の記法が規定されているが、いずれも、音素列(ただしここで「音素」の定義は、音声学的な定義ではなく、音声を構成する音の種類といった、より抽象化された定義とする。以下同様。)と韻律制御に関する記述の組み合わせで構成される。 The intermediate representation is, for example, a command symbol string for speech synthesis (hereinafter referred to as a speech synthesis symbol string). symbols for text-to-speech synthesis"). IT-4006 defines two types of notation, "kana level notation" and "allophone level notation". It is not a definition, but a more abstract definition such as the types of sounds that make up speech.The same applies below.) and a combination of descriptions related to prosody control.
一方、音声の物理的特徴とは、例えば音声の音響的特徴を表すパラメータの時系列データであり、具体的には、例えば1ms間隔のケプストラム係数や基本周波数の値として表される。 On the other hand, the physical features of speech are, for example, time-series data of parameters representing the acoustic features of speech, and are specifically expressed as, for example, cepstrum coefficients at 1 ms intervals and fundamental frequency values.
ところで、テキスト音声合成システムにおける読み誤りのほとんどは、テキスト(漢字仮名交じり文)から音声合成記号列への変換処理(以下テキスト解析という)で生じる。従って合成音声の作成者がテキストから自動変換された音声合成記号列をさらに修正することで、読み誤りのない合成音声を作成できる。 By the way, most reading errors in a text-to-speech synthesis system occur in conversion processing (hereinafter referred to as text analysis) from text (a sentence containing kanji and kana) to a speech synthesis symbol string. Therefore, by further correcting the synthesized speech symbol string automatically converted from the text by the creator of the synthesized speech, synthesized speech without reading errors can be created.
多くの音声合成記号列の定義は、音声学的な知見に基づき設計することが多い。例えば前掲のJEITA IT-4006のような比較的記述が容易な形式でも、その理解には音素の種類、東京方言に関するアクセント、イントネーションの記述の方法に関する事前知識が必要である。JEITA IT-4006に規定される仮名レベルの表記では、音素の記号(規格上は「読み記号」として定義される)は片仮名(ただしヂやヅやヲはそれぞれジ、ズ、オと書く)であり理解が容易であるのに対し、アクセント核の記号「'」や、アクセント句境界、フレーズ境界、ポーズの記号(以下これらを韻律境界記号と呼ぶ)である「/」「|」「_」は数多くのユーザにとってその概念そのものから馴染みのないもので、特に韻律境界記号の適切な挿入にはある程度の知見・経験を必要とする。 Definitions of many speech synthesis symbol strings are often designed based on phonetic knowledge. For example, even in a format such as JEITA IT-4006 mentioned above, which is relatively easy to describe, prior knowledge of the types of phonemes, accents related to the Tokyo dialect, and methods of describing intonation is necessary to understand the format. In the kana-level notation specified in JEITA IT-4006, phoneme symbols (defined as "pronunciation symbols" in the standard) are written in katakana (however, di, z, and w are written as di, z, and o, respectively). ``/'' ``|'' is unfamiliar to many users from the very concept of prosody.
そこで、一般ユーザの利便性を高めるために、特許文献1に示すような音声合成システムのための編集装置が考案されている。ただし、ここに示された方法は、通常のTTSシステムでも用いられる、形態素解析処理をベースとするテキスト解析処理の過程の一部に、ユーザによる修正処理を含む形と等価であり、音声合成記号列の編集システムはTTSシステムのテキスト解析処理を包含している。 Therefore, in order to improve convenience for general users, an editing apparatus for a speech synthesis system as shown in Patent Document 1 has been devised. However, the method shown here is equivalent to the process of text analysis processing based on morphological analysis processing, which is also used in ordinary TTS systems, and includes correction processing by the user. The string editing system includes the text analysis process of the TTS system.
ところで、音声合成記号列に関する知識・経験のないユーザによる、音声合成のための音声合成記号の編集操作を考えた場合、システムはテキストの各文字、あるいは各形態素と音声合成記号を構成する記号要素(以下音声合成記号トークンと呼ぶ)の対応関係を提示することが望ましい。 By the way, if a user who has no knowledge or experience with speech synthesis symbol strings edits speech synthesis symbols for speech synthesis, the system will consider each character of the text, or each morpheme, and the symbolic elements that make up the speech synthesis symbol. (hereinafter referred to as speech synthesis symbol tokens).
また、知識・経験のないユーザは、音声合成記号列を読むこと自体が容易ではないため、合成記号列編集の必要性に関する有無の判断は、主に合成音声の聴取に基づき判断すると考えられる。この際、対象となるTTSシステムによる読み方を編集システム上で正確に再現できると、編集装置を合成音声のチェック用のシステムとして使えて便利である。例えば、データ圧縮等のために、自動処理では読み誤る文に対してのみ音声合成記号列を追加情報として送る音声合成を使った情報配信システムにおいて、追加情報を送る必要性の有無も編集装置上で判断できる。このため編集システムは、対象とするTTSシステムにおける自動処理結果も提示しかつその合成音声を再現できることが望ましい。 In addition, since it is not easy for users with no knowledge or experience to read synthesized speech symbol strings, it is considered that the decision as to whether or not synthetic symbol string editing is necessary is made mainly based on listening to synthesized speech. At this time, if the reading by the target TTS system can be accurately reproduced on the editing system, it is convenient to use the editing device as a system for checking synthesized speech. For example, in an information distribution system that uses speech synthesis to send additional information, such as a speech synthesis symbol string, only for sentences that are misread by automatic processing, for data compression, etc., whether or not there is a need to send additional information depends on the editing device. can be determined by Therefore, it is desirable that the editing system can also present the result of automatic processing in the target TTS system and reproduce the synthesized speech.
ところが、テキストから音声合成記号列への変換で、例えば深層学習を用いたend-to-endの推定手法等、テキストを構成する文字と、出力の音声合成記号列を構成する各記号の対応関係が直接得られない変換処理を用いるTTSシステムの構成があり得る。対象とするTTSシステムがそのような変換手法を用いている場合、そのようなTTSシステムを対象とする音声合成記号列編集装置では、従来、(1)システムにおいて、テキストの文字若しくは形態素と、対応する音声合成記号トークンとの関係性の提示を断念する、(2)両者間の対応関係が得られるような、TTSシステムで用いられているものとは別のテキスト解析処理を編集システムで用いる、のいずれか一方を選択しなければならないという問題があった。 However, in conversion from text to a speech synthesis symbol string, for example, an end-to-end estimation method using deep learning, etc., the correspondence relationship between the characters that make up the text and each symbol that makes up the output speech synthesis symbol string There may be configurations of TTS systems that use conversion processes in which is not directly available. When a target TTS system uses such a conversion technique, conventional speech synthesis symbol string editing devices for such a TTS system have conventionally (1) used text characters or morphemes in the system and corresponding (2) use a different text analysis process in the editing system than that used in the TTS system, such that the correspondence between the two can be obtained; There was a problem that one of them must be selected.
また、先述したようにテキスト解析の誤りは比較的多いことから、実際のTTSシステムでは、テキスト解析処理の内部処理を頻繁に変更することは多い。編集作業者の利便性を考えると実際のTTSシステムのテキスト解析結果を編集装置上でも常に正確に再現できることが望ましく、これを実現するためには、TTSシステムの改修の都度、編集装置の改修も必要になるといった問題があった。 In addition, since there are relatively many text analysis errors as described above, the actual TTS system frequently changes the internal processing of the text analysis process. Considering the convenience of editors, it is desirable that the text analysis results of the actual TTS system can always be accurately reproduced on the editing device. I had a problem with the need.
上記従来技術の課題に鑑み、本発明は、TTSシステムの構成やその改修による影響を低減して利用することのできる、音声合成記号編集装置、方法及びプログラムを提供することを目的とする。 SUMMARY OF THE INVENTION In view of the problems of the prior art described above, it is an object of the present invention to provide a text-to-speech symbol editing apparatus, method, and program that can be used while reducing the effects of the configuration and modification of a TTS system.
上記目的を達成するため、本発明は、テキストと、当該テキストに対応する音声合成記号列の組を入力し、音声合成記号列を出力する音声合成記号編集装置であって、前記入力されたテキストを所定の文字単位へと、前記入力された音声合成記号を所定の音声合成記号トークンへとそれぞれ分割し、当該分割された各文字と0個以上の各音声合成記号トークンとの対応関係を所定の基準に基づき与える対応関係推定部と、前記対応関係が与えられた各文字及び0個以上の各音素合成記号トークンを、ユーザ編集操作を受け付けることによって音素合成記号トークンを更新しながら表示する編集インタフェース部と、を備えることを特徴とする。また、前記音声合成記号編集装置に対応する方法及びプログラムであることを特徴とする。 To achieve the above object, the present invention provides a text-to-speech symbol editing device for inputting a text and a set of text-to-speech synthesis symbol strings corresponding to the text, and for outputting a speech synthesis symbol string, comprising: is divided into predetermined character units, and the input speech synthesis symbol is divided into predetermined speech synthesis symbol tokens. and an editing unit that displays each character and zero or more phoneme synthesis symbol tokens to which the correspondence relationship is given while updating the phoneme synthesis symbol tokens by accepting user editing operations. and an interface unit. Further, the present invention is characterized by a method and a program corresponding to the speech synthesis symbol editing device.
本発明によれば、テキストにおける各文字と、0個以上の各音声合成記号トークンとの対応関係を与えたうえで、当該対応関係をユーザに対して表示してユーザの編集操作を受け付けることにより、音声合成記号編集装置をTTSシステムの構成やその改修による影響を低減して利用することが可能となる。 According to the present invention, after giving the correspondence between each character in the text and each of zero or more speech synthesis symbol tokens, the correspondence is displayed to the user and the user's editing operation is accepted. , it becomes possible to use the speech synthesis symbol editing device while reducing the influence of the structure of the TTS system and its modification.
図1は、一実施形態に係る音声合成記号編集装置の機能ブロック図である。音声合成記号編集装置10は、対応関係推定部11、編集結果表示部12、音声合成記号編集部13、音声合成記号修正部14、編集記録データベース15及び編集再現部16を備える。図2は、一実施形態に係る合成音声編集装置20の機能ブロック図であり、音声合成編集装置20は、テキスト解析部21、図1にその構成を示す音声合成記号編集装置10及び音声合成部22を備える。
FIG. 1 is a functional block diagram of a speech synthesis symbol editing device according to one embodiment. The speech synthesis
音声合成記号編集装置10は、図2に示すような、任意のTTSシステムとして構成されるテキスト解析部21において日本語テキスト(漢字仮名交じり文)を解析して得たその音声合成記号列(元の日本語テキストと共にユーザが参照可能なように出力される)をユーザが修正のため編集する操作を受け付けるインタフェースを提供するものである。ユーザ操作により編集された音声合成記号列はさらに音声合成部22へと出力され、合成音声として再生されることでユーザが編集結果の音声合成記号列による合成音声を聞いて確認することも可能である。ユーザは、この合成音声を聞いて確認する作業を行いながら逐次的に音声合成記号編集装置10で音声合成記号列の編集を行うようにしてもよい。(一方、熟練ユーザであれば音声合成記号列のみから合成音声の様子を把握することで、音声合成部22による合成音声を聞いて確認する作業を省略することもありうる。)
As shown in FIG. 2, the speech synthesis
以下ではまず、音声合成記号編集装置10の各部の処理の概要について説明する。
First, an outline of processing of each unit of the speech synthesis
音声合成記号編集装置10では以下の流れ(1)~(4)でユーザによる編集作業を受け付け、ユーザ編集後の音声合成記号列を出力することができる。
The speech synthesis
(1) 音声合成記号編集装置10はテキストである漢字仮名交じり文と、そのテキスト解析結果(当該テキストを図2のテキスト解析部21で解析して得た結果)である音声合成記号列とを入力として、対応関係推定部11において受け取る。
(1) The speech synthesis
(2) 対応関係推定部11では、音声合成記号列を音声合成記号トークンの列に分割し、テキストの各文字に対し、0個以上の音声合成記号トークンを結びつけ、それを対応関係の情報として線L3で示すように編集結果表示部12へと出力する。(あるいは、後述する代替例として、線L4で示すように、対応関係推定部11の出力を編集再現部16を介して編集結果表示部12へと出力するようにしてもよい。)
(2) The
(3) 編集結果表示部12は、対応関係推定部11の推定結果である対応関係をユーザに提示する。編集結果表示部12はハードウェアとしてはディスプレイで実現され、当該対応関係における各音声合成記号トークンや各テキストを対応関係とともに表示することでユーザに提示することができる。編集結果表示部12はまた、当該表示された推定結果を見て確認したユーザの指示入力(音声合成記号トークンのうち修正が必要な箇所を修正する指示入力であって次の音声合成記号編集部13で受け付けたもの)に基づき、音声合成記号トークンを連結して音声合成記号列(ユーザ編集により修正されたもの)を生成する。
(3) The editing
編集結果表示部12で表示され生成(保持)された音声合成記号列は、双方向矢印L0で示されるように、ユーザ操作による編集の途中においては音声合成記号編集部13と共有する形で保持され、ユーザが編集を終えたと判断して(あるいは、中間的な確認結果を得たいと判断して)編集を確定させる入力を行った場合には、線L1に示すように編集確定した音声合成記号列として音声合成記号編集装置10から出力される。(あるいは、線L1のように直接そのまま出力するのではなく線L2に示すように、後述する代替例として、音声合成記号修正部14による自動修正処理をさらに適用したうえで出力するようにしてもよい。)
The text-to-speech symbol string displayed and generated (held) by the editing
編集結果表示部12はすなわち、表示インタフェースとして、編集途中のテキストの各文字と0個以上の音声合成記号トークンとの対応関係をユーザに対して表示する役割を有するものである。次の音声合成記号部編集部13でユーザ操作により音声合成記号トークンを修正した場合、当該修正した結果が逐次的に反映されて編集結果表示部13を介してユーザに表示される。このように、編集結果表示部12及び音声合成記号編集部13の両者は編集インタフェース部123を形成し、逐次的な編集結果を反映した表示機能を実現するための、音声合成記号を編集するための編集バッファをユーザに提供するものとなり、文単位、あるいはユーザが編集作業を望む任意の単位で、このような編集バッファを提供することができる。
That is, the editing
(4) 音声合成記号編集部13は、前記の対応関係を目視確認したユーザの判断により、所定の文字に対して結びつけられた音声合成記号トークンを、当該判断したユーザ操作に従って置換または削除し、あるいは、その文字に結びつける音声合成記号トークンを追加し、結果を編集結果表示部12に送り返す(双方向矢印L0で示されるように逐次的な編集の反映結果を編集結果表示部12及び音声合成記号編集部13で共有する)ことで、ユーザ操作による対応関係の修正を逐次的に受け付け、ユーザに対して表示させるようにする。
(4) The text-to-speech
(5) 音声合成記号修正部14は、線L1のように音声合成記号列を直接出力することに代えて線L2のように出力する際に利用され、編集結果表示部12における音声合成記号トークンを連結して作成した音声合成記号列を、音声合成記号列の要求仕様を満たすように所定の規則に基づき書き換えて出力する。
(5) The speech synthesis
以上の(1)~(5)の流れは、ユーザがその都度、全てを編集することを前提としたものであったが、ユーザによる過去の編集結果を蓄積しておくことで事前に自動的に適用し、ユーザの編集作業の負荷を低減するための構成としてさらに、以下の機構による(6)~(7)の流れの処理を行うようにしてもよい。このための追加的な構成として、音声合成記号編集装置10は編集記録データベース15及び編集再現部16を備えていてもよい。(なお、この追加的な構成が適用される場合、対応関係部11からの出力は線L4で示す流れで処理され、適用されない場合は、当該出力は線L3で示す流れで処理される。)
The flow of (1) to (5) above was based on the assumption that the user would edit everything each time. , and as a configuration for reducing the user's editing work load, the processing of the flow of (6) to (7) may be performed by the following mechanism. As an additional configuration for this purpose, the text-to-speech
(6) 編集記録データベース15は、音声記号編集部13におけるユーザ操作により、テキストの文字に結びつけれた音声合成記号トークンに対する編集(置換・削除・追加)操作を、文字、編集後の音声合成記号トークンの組の形で編集記録データベース15に保存する。この際、テキストにおける前後1文字以上の文字、編集前のトークン音声合成記号も併せて保存してもよい。
(6) The
(7) 編集再現部16は、対応関係推定部11の出力である、テキストを構成する文字の列と、各文字に結びつけられた音声合成記号トークンに対して、編集記録データベース15を参照して、所定の基準により、各文字に結びつけられた音声合成記号トークンに対する編集操作を行う。この編集反映部16を機能させるかどうかはユーザに選択させてもよい。
(7) The
以下、音声合成記号編集装置10の各部の詳細についてさらに説明する。
Details of each unit of the speech synthesis
<対応関係推定部11>
対応関係推定部11における処理は、例えば次のようになる。図3に例示するように、「今日は良い天気ですね。」というテキストに対し、JEITA IT-4006仮名レベル表記による音声合成記号は例えば「キョ'ーワ|イ'ー/テ'ンキデスネ.」のようになる。音声合成記号編集装置10の入力は両者の組であり、それがそのまま対応関係推定部11の入力になる。
<
The processing in the
対応関係推定部ではテキストを文字単位に、音声合成記号をトークン単位にそれぞれ分割する。ただし、平仮名および片仮名はモーラ単位で分割し、1モーラ文の文字列を1文字と見なす。例えば「きゃ」で1文字とみなす。 The correspondence estimator divides the text into characters and the speech synthesis symbols into tokens. However, hiragana and katakana are divided into mora units, and a character string of one mora sentence is regarded as one character. For example, "kya" is regarded as one character.
図3の例の場合、図中にも四角(□)で囲んで分割された単位を示すように、それぞれ
「今」「日」「は」「良」「い」「天」「気」「で」「す」「ね」「。」
「キョ'」「ー」「ワ」「|」「イ'」「ー」「/」「テ'」「ン」「キ」「デ」「ス」「ネ」「.」
と分割される。(なお、「イ'」「ー」については後述の処理がさらに適用された結果が示されている。)
In the case of the example in Figure 3, as shown in the figure as well, the units enclosed by squares (□) are divided into ``now'', ``day'', ``ha'', ``good'', ``i'', ``heaven'', ``ki'', and `` is not it""."
``kyo'''``ー''``wa''``|''``i'''``ー''``/''``te'''``n''``ki''``de''``su''``ne''``.''
is divided into (Note that "i'" and "-" are the result of further application of the processing described later.)
なお、IT-4006におけるアクセント核記号「'」は、ここでは独立したトークンとはみなさず、先行する読み記号と合わせて1つのトークンとして考える。 Note that the accent core symbol "'" in IT-4006 is not regarded as an independent token here, but is considered as one token together with the preceding reading symbol.
そしてテキストの各文字に対して、0個以上の音声合成記号トークンを結びつける。テキスト中の仮名文字と音声合成記号トークンのうちの読み記号との対応関係は明らかであり、また、漢字には通常何らかの読みがある、また韻律境界記号は句読点や括弧には結びつけても良い、という経験的な規則(ルールベース)を適用することで、図3中にも示すように、
「今」=「キョ'」
「日」=「ー」
「は」=「ワ」
「」=「|」
「良」=「ヨ'」
「い」=「イ」
「」=「/」
「天」=「テ'」「ン」
「気」=「キ」
「で」=「デ」
「す」=「ス」
「ね」=「ネ」
「。」=「.」
という対応関係が得られる。(なお、図3ではテキストの文字単位に対応する音声合成記号列の単位を四角(□)で囲んで上下に並べて示しているが、編集結果表示部12は例えばこのような形で対応関係をグラフィカルに表示してユーザに示すことができる。)
Then, for each character of the text, zero or more speech synthesis symbol tokens are associated. The correspondence between the kana characters in the text and the reading symbols in the text-to-speech symbol tokens is clear, and kanji characters usually have some reading, and prosody boundary marks may be associated with punctuation marks and parentheses. By applying the empirical rule (rule base) of
``Now'' = ``Kyo'''
"day" = "-"
"Ha" = "Wa"
"" = "|"
``Good'' = ``Yo'''
"I" = "I"
"" = "/"
"Heaven" = "Te'""N"
"ki" = "ki"
``de'' = ``de''
"su" = "su"
"ne" = "ne"
"." = "."
A corresponding relationship is obtained. (In FIG. 3, the unit of the speech synthesis symbol string corresponding to the character unit of the text is surrounded by squares (□) and arranged vertically. It can be displayed graphically and shown to the user.)
この例では音声合成記号列途中の韻律境界記号「|」および「/」に対応するテキストの文字が無いため、テキストの文字に空文字「」を挿入して対応関係を記述する。 In this example, since there is no text character corresponding to the prosodic boundary symbols "|" and "/" in the speech synthesis symbol string, the correspondence is described by inserting an empty character "" into the text characters.
この対応関係を自動的に求める処理は、例えば以下に示すようなコストを定義し、最小コスト法に基づく方法により行えばよい。そのような処理は、動的計画法等の既存の最適化の手法を用いて容易に実現できる。 The process of automatically obtaining this correspondence relationship may be performed by, for example, defining costs as shown below and using a method based on the minimum cost method. Such processing can be easily realized using existing optimization methods such as dynamic programming.
平仮名・片仮名の文字と、読み記号の片仮名が一致:コスト0
平仮名「は」に対して読みが「ワ」:コスト1
平仮名「へ」に対して読みが「エ」:コスト1
平仮名「あ」~「お」に対して読みが「ー」(長音記号):コスト1
テキストの句点「。」に対して終端記号「.」が対応:コスト1
平仮名・片仮名の文字が上記4規則を満たさない:コスト100
漢字1文字に対して1モーラの「ン」を除く任意の読み記号が対応:コスト20
漢字1文字に対して読み記号「ン」が対応:コスト70
漢字1文字に対してNモーラ(N≧2)の「ン」で始まらない任意の読み記号が対応:コスト10×(N-1)
漢字1文字に対してNモーラ(N≧2)の「ン」で始まる読み記号が対応:コスト50+10×(N-1)
漢字1文字に対して対応する読み記号が存在しない:コスト100(すなわち、漢字に関しては可能な読みが存在しない場合も許容する。)
The hiragana/katakana characters match the reading symbol katakana: cost 0
Hiragana "wa" is read as "wa": cost 1
Hiragana ``he'' is read as ``e'': cost 1
Hiragana "A" ~ "O" with reading "-" (long vowel symbol): Cost 1
A terminal symbol "." corresponds to the period "." of the text: cost 1
Hiragana/katakana characters do not satisfy the above four rules: Cost 100
Any reading symbol except ``n'' of 1 mora corresponds to 1 kanji character:
The reading symbol "n" corresponds to one kanji character: cost 70
Any reading symbol that does not start with "N" of N mora (N≧2) corresponds to one kanji character:
Corresponds to reading symbols starting with "N" of N mora (N≧2) for one kanji character: Cost 50 + 10 × (N - 1)
There is no reading symbol corresponding to one kanji character: cost 100 (that is, even if there is no possible reading for kanji, it is allowed.)
また、漢字の読みに対しては、予め単漢字辞書(1文字の漢字のそれぞれに対してその読みを振った辞書)を用意し、その読みと一致する場合に小さいコストとなるようなコスト定義とすることで、文字と音声合成記号トークンとの対応関係をより高精度に求めることができる。例えば上記の例では、漢字が並んでいる箇所に対し読み記号のトークンを均等に割り当てる形となるため、長い漢字文字列で構成される箇所で誤りが生じやすくなるが、単漢字辞書を用いて漢字と読み記号の対応関係をより正確に扱うことで、このような誤りを減らすことができる。 In addition, for readings of kanji, a single kanji dictionary (dictionary in which the reading is assigned to each kanji character) is prepared in advance, and the cost is defined so that the cost is small when the reading matches the reading. By doing so, the correspondence between characters and speech synthesis symbol tokens can be obtained with higher accuracy. For example, in the above example, since the pronunciation symbol tokens are evenly assigned to the locations where the kanji are lined up, errors tend to occur in locations consisting of long kanji character strings, but using the single kanji dictionary Such errors can be reduced by more accurately handling the correspondence between kanji and reading symbols.
<音声合成記号編集部13>
音声合成記号編集部13では文字に対応するトークンの修正、削除、追加を、ユーザ入力に従って行う。この時、韻律記号の挿入操作が行われた場合、それに空文字「」を含め対応する文字が存在しない場合は、対応する箇所に空文字「」を挿入する処理を、ユーザ操作を受けることなくルールベースにより自動で行うようにしてよい。また、音声合成記号トークンに削除により空文字「」に対応する音声合成記号トークンが存在しなくなった場合は、その空文字「」を文字列から削除する処理を、ユーザ操作を受けることなくルールベースにより自動で行うようにしてよい。
<Speech
The text-to-speech
<音声合成記号修正部14>
音声合成記号修正部14は音声合成記号編集装置10が形式的に不正な音声合成記号列を出力しないようにするための機構である。(形式不正な音声合成記号列は、図2の音声合成部22において音声合成することができない。)
<Speech synthesis
The speech synthesis
なお、編集インタフェース部123においてユーザ編集操作を逐次的に反映されながら各文字との対応関係を紐づけて(編集バッファとして)保持されている音声合成記号トークン列のうち、ユーザが確定した旨を編集結果表示部12に対して入力した部分列(編集バッファの全体でもよい)を音声合成記号修正部14に出力させるようにすればよい。ユーザは、この部分列の箇所のみを、音声合成記号修正部14を経たうえで例えば図2の音声合成部22において合成音声として出力させることで、部分列に対応する合成音声を聞いて確認するといった作業が可能となる。なお、この確定した旨の入力は、ユーザの編集操作が完全に終了したとユーザが判断した場合の他にも、中間的な確定により、合成音声を聞いて確認することをユーザが望む場合(合成音声が不自然であった場合、さらに編集を継続するため)にも可能である。
In the edit interface unit 123, while the user edit operation is sequentially reflected, among the speech synthesis symbol token strings held (as an edit buffer) in association with the corresponding relationship with each character, the fact that the user has confirmed is displayed. The partial string (or the entire editing buffer) input to the edit
例えば「キョ'ーワ|ヨ'イ/テ'ンキデスネ.」の「/」を音声合成記号編集部13にてユーザが削除した場合、音声合成記号トークンを単純に連結すると「キョ'ーワ|ヨ'イテ'ンキデスネ.」となるが、これはアクセント句(アクセント句境界「/」、フレーズ境界「|」、ポーズ「_」のいずれかで区切られる区間をアクセント句という)内にはアクセント核「'」は高々1個しか存在してはならないという、JEITA IT-4006の規則を満たさない形式である。 For example, if the user deletes the "/" in "Kyo'wa | Yo'i/Te'nkidesune." However, within an accent phrase (a section delimited by either an accent phrase boundary ``/'', a phrase boundary ``|'', or a pause ``_''), there is an accent core It is a form that does not satisfy the JEITA IT-4006 rule that there must be at most one "'".
これに対し、音声合成記号修正部14は所定の規則に基づき、フォーマット的に適正な形式になるように音声合成記号列を書き換える。例えばアクセント句内の最初のアクセント核を残し、それ以外のアクセント核記号は削除する、という規則を設定した場合、音声合成記号修正部14は適正な形式である、「キョ'ーワ|ヨ'イテンキデスネ.」という音声合成記号列を出力する。(すなわち、「テ'」のアクセント核を削除してアクセント句内のアクセント核「'」を高々1個に書き換えて出力する。)これにより、音声合成記号編集装置10の出力結果を、音声合成記号列を入力とする音声合成装置(図2の音声合成部22)に直接入力することができ、例えば、編集結果表示部12の表示内容を合成音声によりユーザは確認できる。
On the other hand, the speech synthesis
ここで、この音声合成記号修正部14の処理が(線L1の代替例として)線L2で示すように出力直前の処理となっていることで、編集箇所以外の元の情報はシステム上に(線L0で示す編集結果表示部12及び音声合成記号編集部13での共有データとして)保存されており、例えば、その後に、音声合成記号編集部13で元の位置に「/」を再度挿入した場合に、「天」の読み記号が「テ'」「ン」(テにアクセント核がある)となっている、元の音声合成記号が再現される。
Here, the processing of this speech synthesis symbol correction unit 14 (as an alternative example of line L1) is the processing immediately before output as indicated by line L2, so that the original information other than the edited part is transferred to the system ( (as shared data in the editing
<音声合成記号編集部13、編集記録データベース15、編集再現部16>
音声合成記号編集部13では、編集操作を所定の様式で編集記録データベース15に記録しても良い。例えば「良」の読み記号を「ヨ'」から「イ'」に書き換えた場合、所定の様式として例えば、「文字「良」の読み記号「ヨ'」を「イ'」に書き換える」という編集操作を編集記録データベースに記録する。ここで所定の様式に関する別の例として、「その前の文字が「」、後ろの文字が「い」の文字「良」の読み記号「ヨ'」を「イ'」に書き換える」といったような、文字に関してより細かい条件を記載する様式や、「文字「良」の読み記号を「ヨ'」に書き換える」といったより簡略化された様式も用いてよい。
<Speech synthesis
The speech synthesis
また、編集記録データベース15がある場合、編集再現部16を設けることができる。編集再現部16では、音声合成記号編集装置10に対する新たな入力に対する対応関係推定部11の出力に対して、文字および音声合成記号トークンを参照して編集記録データベースに対するクエリを行い、クエリに対応する編集情報が編集記録データベース15にあった場合、この編集操作を編集再現部16の入力に対して行い、編集結果表示部12へと出力する。
Also, if there is an
すなわち、対応関係推定部11で得た、対応関係が与えられている文字及び音声合成記号トークンの列に対して、編集記録データベース15に記録されている編集情報のそれぞれの書き換え規則が適用可能かを照合し、適用可能なものがあれば適用したうえで、編集結果表示部12へと出力する。
That is, whether the rewrite rules for each of the editing information recorded in the
先の例が編集記録データベースにあった場合、入力「今日は良い日和ですね。」「キョ'ーワ|ヨ'イ/ヒヨリデ'スネ.」に対し、「良」の読みを「イ'」に書き換えたものを音声合成記号編集部13に出力することができ、ユーザによる同様の修正操作の手間を減らすことができる。
If the previous example were in the edit record database, the input "Today is a good day." ” can be output to the text-to-speech
なお、この処理を適用するかどうかをユーザが選択できるようにしてもよい。すなわち、編集情報の書き換え規則が適用可能な箇所があった場合、ただちに適用して編集結果表示部12へと出力するのではなく、それぞれの書き換え規則が該当箇所において適用可能である旨の情報として編集結果表示部12においてユーザに対して表示し、ユーザは実際に適用するか否かの指示を音声合成記号編集部13に対して入力し、適用する指示があった箇所についてのみ、実際に適用した結果を編集結果表示部12で更新して表示させるようにしてもよい。
Note that the user may be allowed to select whether or not to apply this process. That is, when there is a place to which the rewrite rule of the editing information is applicable, it is not immediately applied and output to the edit
以上、各実施形態の音声合成記号編集装置10によれば、対象となるTTSシステム(図2のテキスト解析部21)のテキスト解析手法によらず、テキストの各文字と音声合成記号トークンとの対応関係をユーザに提示できる。これによりユーザはテキストを参照して音声合成記号列中の修正箇所を探し出すことができ、合成音声の読み誤りを容易に修正できる。また、TTSシステムと音声合成記号編集装置10がより独立したものとなり、TTSシステムの改修の都度、音声合成記号編集装置10の改修を行わなくても、ユーザの利便性を保つことができる。
As described above, according to the speech synthesis
すなわち、テキストを構成する文字と音声合成記号列の読み記号との対応関係を音声合成記号編集装置10内の対応関係推定部11で独自に生成することで、ユーザの利便性を保ちつつ、TTSシステム内のテキスト解析部21の改修が音声合成記号編集システムに影響しないようにすることができる。
That is, by uniquely generating the correspondence relationship between the characters constituting the text and the reading symbol of the speech synthesis symbol string by the
以下、種々の補足例、追加例、代替例などに関して説明する Various supplementary examples, additional examples, alternative examples, etc. will be described below.
<1> 対応関係推定部11での例外処理について
対応関係推定部11において、前述のテキストの各文字は、複数文字の連続を例外的に1文字と見なして処理するようにしても良い。例えば「今日」(キョ'ー)のような熟字訓に対して、上記方法でも「今」=「キョ'」、日=「ー」のように便宜的に対応付けられることで破綻なく処理されるが、このような対応関係の表示はユーザに違和感を与える。これに対し、例外的に「今日」を一文字と見なすことにより、この問題は回避できる。
<1> Exceptional Processing in
また、対応関係推定部11で、前述のようにテキスト内のある1文字に対して読み記号を1つも割り当てないことに対して大きなペナルティを設定した場合に、「百舌鳥」(モ'ズ)のようなケースでは対応関係の推定では破綻が生じ、テキストの少なくともその周辺の文字も影響を受けるが、「百舌鳥」を1文字扱いとすればこの問題を回避できる。ただし、このような処理が必要な単語は限られていることから、どのような文字列を1文字扱いにするかについては、経験に基づき事前に規則を決めておく方法でよい。
Also, when the
なお、音声合成記号編集部13では、韻律境界記号の挿入・削除に伴う空文字「」の操作を除き、テキストの文字に対する修正等は想定していないため、この方法による問題は生じない。
Note that the speech synthesis
また、実装上の工夫として対応関係推定部11においてテキストを文字単位に区切る場合、元の文字間に常に空文字「」を挿入しても良い。常に元のテキストの文字間に空文字「」を挿入する実装では、音声合成記号編集部13で、韻律境界記号の追加・削除に伴う、空文字「」の挿入・削除処理が不要となる。
Further, as a contrivance in terms of implementation, when the
<2> 音声合成記号修正部14に関して、前述では編集インタフェース部123で保持している編集バッファには修正結果を反映しないものとしたが、反映するようにしてもよい。すなわち、音声合成記号修正部14の出力結果と同様の修正を行った結果を、編集結果表示部12で表示し、自動修正結果として反映させるようにしてもよい。
<2> With respect to the speech synthesis
前述の通り、修正を行わない場合、不正な形式の音声合成記号列が編集結果表示部12に表示されるが、さらなる編集を行う場合にはスムーズに済むこともあるという利点もある一方で、そのまま音声合成できない音声合成記号列が表示されることで、ユーザの利便性を損われる可能性もありうる。従って、変形例として、修正後の結果を表示することでこの問題を回避できる。
As mentioned above, if no correction is made, the malformed text-to-speech symbol string will be displayed in the editing
<3> 編集結果表示部12では音声合成記号トークンを文字情報として表示することに代えて、あるいは、文字情報として表示することに加えて、例えば音声合成記号トークンに対応するピッチパターンをグラフィカルに表示してもよい。
<3> Instead of displaying the speech synthesis symbol token as character information, or in addition to displaying the speech synthesis symbol token as character information, the editing
<4> 図1で示すような音声合成記号編集装置10の単独構成による利用の他にも、図2を参照して説明したように、音声合成記号編集装置10の前段側にテキスト解析部21を配置し、及び/又は、音声合成記号編集装置10の後段側に音声合成部22を配置して、利用するようにしてもよい。図2では便宜上、合成音声編集装置20としたが、テキスト解析部21及び/又は音声合成部22が音声合成記号編集装置10に含まれるものとして扱ってもよい。
<4> In addition to using the speech synthesis
<5> 図4は、一般的なコンピュータ装置70におけるハードウェア構成の例を示す図である。音声合成記号編集装置10(あるいは合成音声編集装置20、以下同様)は、このような構成を有する1台以上のコンピュータ装置70として実現可能である。なお、2台以上のコンピュータ装置70で音声合成記号編集装置10を実現する場合、ネットワーク経由で処理に必要な情報の送受を行うようにしてよい。コンピュータ装置70は、所定命令を実行するCPU(中央演算装置)71、CPU71の実行命令の一部又は全部をCPU71に代わって又はCPU71と連携して実行する専用プロセッサとしてのGPU(グラフィックス演算装置)72、CPU71(及びGPU72)にワークエリアを提供する主記憶装置としてのRAM73、補助記憶装置としてのROM74、通信インタフェース75、ディスプレイ76、マウス、キーボード、タッチパネル等によりユーザ入力を受け付ける入力インタフェース77、マイク78と、これらの間でデータを授受するためのバスBSと、を備える。
<5> FIG. 4 is a diagram showing an example of a hardware configuration in a general computer device 70. As shown in FIG. The speech synthesis symbol editing device 10 (or the synthetic
音声合成記号編集装置10の各機能部は、各部の機能に対応する所定のプログラムをROM74から読み込んで実行するCPU71及び/又はGPU72によって実現することができる。なお、CPU71及びGPU72は共に、演算装置(プロセッサ)の一種である。ここで、表示関連の処理が行われる場合にはさらに、ディスプレイ76が連動して動作し、データ送受信に関する通信関連の処理が行われる場合にはさらに通信インタフェース75が連動して動作する。音声合成記号編集装置10による処理結果等(編集結果表示部12による表示等)はディスプレイ76で表示して出力してよい。音声合成部22で得た合成音声をマイク78で再生することでユーザに対して出力するようにしてもよい。
Each functional unit of the speech synthesis
<6> 本発明の各実施形態に係る音声合成記号編集装置10によれば、テキストから高品質な(自然な発声で構成される)合成音声を得るための編集作業等を効率化することが可能となる。これにより、テキストとして目視で読み取って情報にアクセスすることができない状況にあるハンディキャップを有する人に対しても、あるいは、このような制約が課される環境においても、高品質な合成音声を用意しておくことにより、理解が容易でスムーズな情報アクセスを提供することを、より少ないコストで実現できるようになることから、国連が主導する持続可能な開発目標(SDGs)の目標10「国内および国家間の不平等を是正する」に貢献することが可能となる。
<6> According to the text-to-speech
10…音声合成記号編集装置、11…対応関係推定部、12…編集結果表示部、13…音声合成記号編集部、123…編集インタフェース部、14…音声合成記号修正部、15…編集記録データベース、16…編集再現部 10...speech synthesis symbol editing device, 11...correspondence estimation unit, 12...editing result display unit, 13...speech synthesis symbol editing unit, 123...editing interface unit, 14...speech synthesis symbol correcting unit, 15...editing record database, 16…Editing Reproduction Section
Claims (14)
前記入力されたテキストを所定の文字単位へと、前記入力された音声合成記号を所定の音声合成記号トークンへとそれぞれ分割し、当該分割された各文字と0個以上の各音声合成記号トークンとの対応関係を所定の基準に基づき与える対応関係推定部と、
前記対応関係が与えられた各文字及び0個以上の各音素合成記号トークンを、ユーザ編集操作を受け付けることによって音素合成記号トークンを更新しながら表示する編集インタフェース部と、を備えることを特徴とする音声合成記号編集装置。 A speech synthesis symbol editing device for inputting a set of text and a speech synthesis symbol string corresponding to the text and outputting a speech synthesis symbol string,
dividing the input text into predetermined character units, dividing the input speech synthesis symbol into predetermined speech synthesis symbol tokens, and combining each of the divided characters with zero or more speech synthesis symbol tokens; a correspondence estimating unit that gives the correspondence of based on a predetermined criterion;
an editing interface unit that displays each character given the corresponding relationship and each of zero or more phoneme synthesis symbol tokens while updating the phoneme synthesis symbol tokens by accepting a user editing operation. Text-to-speech symbol editor.
前記対応関係推定部では、前記テキスト解析部が出力した音声合成記号列を、前記テキストに対応する入力として受け付けることを特徴とする請求項1ないし10のいずれかに記載の音声合成記号編集装置。 further comprising a text analysis unit that analyzes the text and outputs a corresponding speech synthesis symbol string;
11. The speech synthesis symbol editing apparatus according to claim 1, wherein the correspondence estimation unit receives the speech synthesis symbol string output from the text analysis unit as an input corresponding to the text.
前記入力されたテキストを所定の文字単位へと、前記入力された音声合成記号を所定の音声合成記号トークンへとそれぞれ分割し、当該分割された各文字と0個以上の各音声合成記号トークンとの対応関係を所定の基準に基づき与える対応関係推定段階と、
前記対応関係が与えられた各文字及び0個以上の各音素合成記号トークンを、ユーザ編集操作を受け付けることによって音素合成記号トークンを更新しながら表示する編集インタフェース段階と、を備えることを特徴とする音声合成記号編集方法。 A speech synthesis symbol editing method for inputting a set of text and a speech synthesis symbol string corresponding to the text and outputting a speech synthesis symbol string,
dividing the input text into predetermined character units, dividing the input speech synthesis symbol into predetermined speech synthesis symbol tokens, and combining each of the divided characters with zero or more speech synthesis symbol tokens; a correspondence estimation step of giving the correspondence of based on a predetermined criterion;
and an editing interface stage for displaying each character given the correspondence and zero or more phoneme synthesis symbol tokens while updating the phoneme synthesis symbol tokens by accepting a user editing operation. How to edit text-to-speech symbols.
前記入力されたテキストを所定の文字単位へと、前記入力された音声合成記号を所定の音声合成記号トークンへとそれぞれ分割し、当該分割された各文字と0個以上の各音声合成記号トークンとの対応関係を所定の基準に基づき与える対応関係推定部と、
前記対応関係が与えられた各文字及び0個以上の各音素合成記号トークンを、ユーザ編集操作を受け付けることによって音素合成記号トークンを更新しながら表示する編集インタフェース部と、を備える音声合成記号編集装置として、
コンピュータを機能させることを特徴とする音声合成記号編集プログラム。 A speech synthesis symbol editing device for inputting a set of text and a speech synthesis symbol string corresponding to the text and outputting a speech synthesis symbol string,
dividing the input text into predetermined character units, dividing the input speech synthesis symbol into predetermined speech synthesis symbol tokens, and combining each of the divided characters with zero or more speech synthesis symbol tokens; a correspondence estimating unit that gives the correspondence of based on a predetermined criterion;
a speech synthesis symbol editing device, comprising: an editing interface unit that displays each character given the corresponding relationship and each of zero or more phoneme synthesis symbol tokens while updating the phoneme synthesis symbol tokens by accepting a user editing operation. As
A text-to-speech symbol editing program that causes a computer to function.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021041871A JP2022141520A (en) | 2021-03-15 | 2021-03-15 | Voice synthesis symbol editing device, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021041871A JP2022141520A (en) | 2021-03-15 | 2021-03-15 | Voice synthesis symbol editing device, method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022141520A true JP2022141520A (en) | 2022-09-29 |
Family
ID=83403018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021041871A Pending JP2022141520A (en) | 2021-03-15 | 2021-03-15 | Voice synthesis symbol editing device, method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022141520A (en) |
-
2021
- 2021-03-15 JP JP2021041871A patent/JP2022141520A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9424833B2 (en) | Method and apparatus for providing speech output for speech-enabled applications | |
US8825486B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
US8914291B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
US20090281808A1 (en) | Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device | |
JP6003115B2 (en) | Singing sequence data editing apparatus and singing sequence data editing method | |
JP5423466B2 (en) | Speech synthesis apparatus, speech synthesis method, and speech synthesis program | |
Hirst | A multi-level, multilingual approach to the annotation and representation of speech prosody | |
JP2006030326A (en) | Speech synthesizer | |
JP2022141520A (en) | Voice synthesis symbol editing device, method and program | |
JP3589972B2 (en) | Speech synthesizer | |
JP4409279B2 (en) | Speech synthesis apparatus and speech synthesis program | |
JP6411015B2 (en) | Speech synthesizer, speech synthesis method, and program | |
JP6232724B2 (en) | Speech synthesis apparatus and language dictionary registration method | |
JP3414326B2 (en) | Speech synthesis dictionary registration apparatus and method | |
JP6631186B2 (en) | Speech creation device, method and program, speech database creation device | |
JP2575252B2 (en) | Pronunciation dictionary management method | |
WO2022196087A1 (en) | Information procesing device, information processing method, and information processing program | |
KR100464019B1 (en) | Pronunciation string display method at the time of edit for voice recognizing apparatus | |
JP2003005776A (en) | Voice synthesizing device | |
JP2000056788A (en) | Meter control method of speech synthesis device | |
JP2002073070A (en) | Voice processing method, voice processor, storage medium, and natural language processing method | |
JP2001249678A (en) | Device and method for outputting voice, and recording medium with program for outputting voice | |
JPH08221095A (en) | Method for reading sentence aloud | |
Abe et al. | A bilingual speech design tool: Sesign2001 | |
JP2000056787A (en) | Fixed form sentence corpus creating device, method, and record medium therefor |