JP7055529B1 - Meaning judgment program and meaning judgment system - Google Patents

Meaning judgment program and meaning judgment system Download PDF

Info

Publication number
JP7055529B1
JP7055529B1 JP2022025781A JP2022025781A JP7055529B1 JP 7055529 B1 JP7055529 B1 JP 7055529B1 JP 2022025781 A JP2022025781 A JP 2022025781A JP 2022025781 A JP2022025781 A JP 2022025781A JP 7055529 B1 JP7055529 B1 JP 7055529B1
Authority
JP
Japan
Prior art keywords
data
segmentation
sound
phoneme
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022025781A
Other languages
Japanese (ja)
Other versions
JP2023122209A (en
Inventor
継 河合
Original Assignee
クリスタルメソッド株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by クリスタルメソッド株式会社 filed Critical クリスタルメソッド株式会社
Priority to JP2022025781A priority Critical patent/JP7055529B1/en
Application granted granted Critical
Publication of JP7055529B1 publication Critical patent/JP7055529B1/en
Publication of JP2023122209A publication Critical patent/JP2023122209A/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】意味データを精度よく判定できる意味判定プログラム、及び意味判定システムを提供する。【解決手段】音データを取得する取得ステップと、前記取得ステップにより取得した音データから、音素を示す音素データと、前記音素の開始時点及び終了時点に関するセグメンテーションデータとを抽出する抽出ステップと、予め取得された参照用音素データと参照用セグメンテーションデータとを含む入力データと、言葉の意味を示す意味データを含む出力データとを一組のデータセットとする判定用学習データを複数用いて、機械学習により生成された判定モデルを参照して、前記音素データと前記セグメンテーションデータとに対する意味データを判定する判定ステップとをコンピュータに実行させることを特徴とする。【選択図】図2PROBLEM TO BE SOLVED: To provide a meaning determination program and a meaning determination system capable of accurately determining semantic data. SOLUTION: An acquisition step for acquiring sound data, an extraction step for extracting sound element data indicating a sound element and segmentation data regarding a start time point and an end time point of the sound element from the sound data acquired by the acquisition step, and an extraction step in advance. Machine learning using a plurality of judgment learning data in which the input data including the acquired reference phonetic data and the reference segmentation data and the output data including the semantic data indicating the meaning of the word are set as a set of data. It is characterized in that a computer is made to execute a determination step for determining semantic data for the phonetic data and the segmentation data with reference to the determination model generated by. [Selection diagram] Fig. 2

Description

本発明は、意味判定プログラム、及び意味判定システムに関する。 The present invention relates to a meaning determination program and a meaning determination system.

近年、音素の開始時点及び終了時点に関するセグメンテーションデータが、学習データの自動増加やデータ再利用と言う観点において有用であり、データ量を最小単位で利用することができることが期待されている。このことから、音素のセグメンテーションデータを用いた音声認識の技術が注目を集めており、例えば特許文献1の波形の形状分析に基づく音素セグメンテーション方法及びそれを使用する音素セグメンテーション装置が知られている。 In recent years, segmentation data regarding the start time and end time of phonemes are useful from the viewpoint of automatic increase of learning data and data reuse, and it is expected that the amount of data can be used in the smallest unit. For this reason, a speech recognition technique using phoneme segmentation data has attracted attention, and for example, a phoneme segmentation method based on waveform shape analysis of Patent Document 1 and a phoneme segmentation device using the same are known.

特許文献1では、音声データに対して、その音声波形のゼロクロス周期を第1のパラメータとして演算し、音声波形のゼロクロス-ゼロクロス間の第1極大値の尖頭度を第2のパラメータとして演算し、音声波形のゼロクロス-ゼロクロス間で更新される所定期間毎の最大振幅を第3のパラメータとして演算し、音声波形のゼロクロス-ゼロクロス間の極大値数を第4のパラメータとして演算し、音声波形のゼロクロス時の振幅値のゼロ点への食い込み角度を第5のパラメータとして演算し、第1~第5のパラメータそれぞれに対して重みを与え、第1~第5の重み付きパラメータを乗算し、乗算結果をしきい値と比較して音素境界を判定する。これにより、特許文献1では、発話音声に対して確度の高い音素セグメンテーションを行うことができる技術が開示されている。 In Patent Document 1, the zero cross period of the voice waveform is calculated as the first parameter for the voice data, and the sharpness of the first maximum value between the zero cross and the zero cross of the voice waveform is calculated as the second parameter. , The maximum amplitude for each predetermined period updated between zero cross and zero cross of the voice waveform is calculated as the third parameter, and the maximum number of values between zero cross and zero cross of the voice waveform is calculated as the fourth parameter, and the voice waveform is calculated. The angle at which the amplitude value at zero crossing to the zero point is calculated as the fifth parameter, weights are given to each of the first to fifth parameters, and the first to fifth weighted parameters are multiplied and multiplied. The result is compared with the threshold to determine the phonetic boundary. As a result, Patent Document 1 discloses a technique capable of performing phoneme segmentation with high accuracy for spoken voice.

特開2006-284907号公報Japanese Unexamined Patent Publication No. 2006-284907

しかしながら、特許文献1の開示技術では、判定したセグメンテーションデータを用いて音データを音声認識する際に、音素データとセグメンテーションデータとに対する音データの意味を示す意味データを判定することを想定していない。そのため、特許文献1では、例えばユーザ毎にセグメンテーションデータに個人差がある場合においても、音素データとセグメンテーションデータとに対する意味データが一義的に判定されてしまうので、意味データを精度よく判定することができない。このため、意味データを精度よく判定することが求められている。 However, the disclosed technique of Patent Document 1 does not assume that when the determined segmentation data is used for voice recognition, the semantic data indicating the meaning of the sound data with respect to the phonetic data and the segmentation data is determined. .. Therefore, in Patent Document 1, for example, even if there are individual differences in the segmentation data for each user, the semantic data for the phoneme data and the segmentation data is uniquely determined, so that the semantic data can be determined accurately. Can not. Therefore, it is required to accurately determine the semantic data.

そこで本発明は、上述した問題に鑑みて案出されたものであり、その目的とするところは、意味データを精度よく判定できる意味判定プログラム、及び意味判定システムを提供することにある。 Therefore, the present invention has been devised in view of the above-mentioned problems, and an object of the present invention is to provide a meaning determination program and a meaning determination system capable of accurately determining semantic data.

第1発明に係る意味判定プログラムは、音データを取得する取得ステップと、前記取得ステップにより取得した音データから、音素を示す音素データと、前記音素の開始時点及び終了時点に関するセグメンテーションデータとを抽出する抽出ステップと、予め取得された参照用音素データと参照用セグメンテーションデータとを含む入力データと、言葉の意味を示す意味データを含む出力データとを一組のデータセットとする判定用学習データを複数用いて、機械学習により生成された判定モデルを参照して、前記音素データと前記セグメンテーションデータとに対する意味データを判定する判定ステップとをコンピュータに実行させることを特徴とする。 The meaning determination program according to the first invention extracts sound element data indicating a sound element and segmentation data relating to a start time point and an end time point of the sound element from the acquisition step of acquiring sound data and the sound data acquired by the acquisition step. Judgment training data that includes the extraction step to be performed, the input data including the reference phonetic element data and the reference segmentation data acquired in advance, and the output data including the semantic data indicating the meaning of the word, as a set of data sets. It is characterized in that a computer is made to execute a determination step for determining semantic data for the phonetic data and the segmentation data by referring to a determination model generated by machine learning.

第2発明に係る意味判定プログラムは、第1発明において、前記抽出ステップは、予め取得された参照用音データを含む抽出用入力データと、参照用音素データと参照用セグメンテーションデータとを含む抽出用出力データとを一組のデータセットとする抽出用学習データを複数用いて、機械学習により生成された抽出モデルを参照して、前記音データから前記音素データと前記セグメンテーションデータとを抽出することを特徴とする。 In the first invention, the meaning determination program according to the second invention is the extraction step, in which the extraction step includes extraction input data including reference sound data acquired in advance, reference phonetic element data, and reference segmentation data. Using a plurality of extraction training data using the output data as a set of data, the phonetic data and the segmentation data can be extracted from the sound data by referring to the extraction model generated by machine learning. It is a feature.

第3発明に係る意味判定プログラムは、第2発明において、前記抽出モデルは、擬似的に生成された前記参照用音データを含む抽出用入力データと、前記参照用音素データと前記参照用セグメンテーションデータとを含む抽出用出力データとを一組のデータセットとする前記抽出用学習データを用いて、機械学習により生成されることを特徴とする。 In the second invention, the meaning determination program according to the third invention is the extraction model, which includes extraction input data including the reference sound data pseudo-generated, reference phonetic data, and reference segmentation data. It is characterized in that it is generated by machine learning using the extraction training data having the extraction output data including and as a set of data sets.

第4発明に係る意味判定システムは、音データを取得する取得手段と、前記取得手段により取得した音データから音素を示す音素データと、前記音素の開始時点から終了時点までの時間差を示すセグメンテーションデータとを抽出する抽出手段と、予め取得された参照用音素データと参照用セグメンテーションデータとを含む入力データと、言葉の意味を示す意味データを含む出力データとを一組のデータセットとする判定用学習データを複数用いて、機械学習により生成された判定モデルが記憶されたデータベースと、前記判定モデルを参照して、前記音素データと前記セグメンテーションデータとに対する意味データを判定する判定手段とを備えることを特徴とする。 The meaning determination system according to the fourth aspect of the present invention includes acquisition means for acquiring sound data, phonetic data indicating sound elements from the sound data acquired by the acquisition means, and segmentation data indicating a time difference from the start time to the end time of the sound elements. For determination that the extraction means for extracting and the input data including the reference phonetic data and the reference segmentation data acquired in advance and the output data including the semantic data indicating the meaning of the word are set as a set of data sets. It is provided with a database in which a determination model generated by machine learning is stored using a plurality of training data, and a determination means for determining semantic data for the phonetic data and the segmentation data with reference to the determination model. It is characterized by.

第1発明~第3発明によれば、予め取得された参照用音素データと参照用セグメンテーションデータとに対する意味データとを一組のデータセットとする判定用学習データを複数用いて、機械学習により生成された判定モデルを参照して、音素データとセグメンテーションデータとに対する意味データを判定する。即ち、意味判定プログラムを利用するユーザの個人差を踏まえた判定用学習データを用意することで、音素データとセグメンテーションデータとに対する適切な意味データを判定することができる。このため、ユーザ毎の個人差を考慮した意味データを精度よく判定できる。 According to the first to third inventions, it is generated by machine learning using a plurality of judgment learning data in which a predetermined data set of semantic data for reference phonetic data and reference segmentation data is used. With reference to the determined determination model, the semantic data for the phonetic data and the segmentation data is determined. That is, by preparing the learning data for determination based on the individual difference of the user who uses the semantic determination program, it is possible to determine appropriate semantic data for the phoneme data and the segmentation data. Therefore, it is possible to accurately determine the semantic data in consideration of individual differences for each user.

特に、第2発明によれば、抽出ステップは、予め取得された参照用音データに対する参照用音素データと参照用セグメンテーションデータとを一組のデータセットとする抽出用学習データを複数用いて、機械学習により生成された抽出モデルを参照して、前記音データから前記音素データと前記セグメンテーションデータを抽出する。これにより、精度よく音素データとセグメンテーションデータとを抽出できる。このため、意味データを精度よく判定できる。 In particular, according to the second invention, the extraction step uses a plurality of extraction training data in which a reference sound element data and a reference segmentation data for the reference sound data acquired in advance are used as a set of data, and the machine is used. The phonetic data and the segmentation data are extracted from the sound data with reference to the extraction model generated by the training. As a result, phoneme data and segmentation data can be extracted with high accuracy. Therefore, the semantic data can be accurately determined.

特に、第3発明によれば、抽出モデルは、擬似的に生成された参照用音データと、参照用音素データと参照用セグメンテーションデータとを一組のデータセットとする抽出用学習データを用いて、機械学習により生成される。これにより、擬似的に生成された音データを学習データとすることが可能となり、想定される環境に適した学習データを容易に取得することができる。このため、意味データを精度よく判定できる。 In particular, according to the third invention, the extraction model uses the pseudo-generated reference sound data and the extraction training data in which the reference sound element data and the reference segmentation data are a set of data sets. , Generated by machine learning. As a result, it becomes possible to use the pseudo-generated sound data as learning data, and it is possible to easily acquire learning data suitable for the assumed environment. Therefore, the semantic data can be accurately determined.

第4発明によれば、判定手段は、判定モデルを参照して、音素データとセグメンテーションデータとに対する意味データを判定する。即ち、意味判定システムを利用するユーザの個人差を踏まえた判定用学習データを用意することで、音素データとセグメンテーションデータとに対する適切な意味データを判定することができる。このため、ユーザ毎の個人差を考慮した意味データを精度よく判定できる。 According to the fourth invention, the determination means determines the semantic data for the phoneme data and the segmentation data with reference to the determination model. That is, by preparing the learning data for judgment based on the individual difference of the user who uses the meaning judgment system, it is possible to judge appropriate semantic data for the phoneme data and the segmentation data. Therefore, it is possible to accurately determine the semantic data in consideration of individual differences for each user.

図1は、実施形態における意味判定システムの一例を示す模式図である。FIG. 1 is a schematic diagram showing an example of a meaning determination system in the embodiment. 図2は、実施形態における意味判定システムの動作の一例を示す模式図である。FIG. 2 is a schematic diagram showing an example of the operation of the meaning determination system in the embodiment. 図3(a)は、音データの一例を示す模式図であり、図3(b)は、スペクトログラムの一例を示す模式図である。FIG. 3A is a schematic diagram showing an example of sound data, and FIG. 3B is a schematic diagram showing an example of a spectrogram. 図4(a)は、抽出モデルの学習方法の一例を示す模式図であり、図4(b)は、判定モデルの学習方法の一例を示す模式図である。FIG. 4A is a schematic diagram showing an example of a learning method of an extraction model, and FIG. 4B is a schematic diagram showing an example of a learning method of a determination model. 図5は、抽出モデルの一例を示す模式図である。FIG. 5 is a schematic diagram showing an example of an extraction model. 図6は、判定モデルの一例を示す模式図である。FIG. 6 is a schematic diagram showing an example of the determination model. 図7(a)は、実施形態における意味判定装置の構成の一例を示す模式図であり、図(b)は、実施形態における意味判定装置の機能の一例を示す模式図であり、図7(c)は、DB生成部の一例を示す模式図である。FIG. 7A is a schematic diagram showing an example of the configuration of the meaning determination device in the embodiment, and FIG. 7B is a schematic diagram showing an example of the function of the meaning determination device in the embodiment. c) is a schematic diagram showing an example of a DB generation unit. 図8は、処理部の一例を示す模式図である。FIG. 8 is a schematic diagram showing an example of the processing unit. 図9は、実施形態における意味判定システムの動作の一例を示すフローチャートである。FIG. 9 is a flowchart showing an example of the operation of the meaning determination system in the embodiment.

以下、本発明を適用した実施形態における意味判定プログラム、及び意味判定システムの一例について、図面を参照しながら説明する。 Hereinafter, an example of the meaning determination program and the meaning determination system in the embodiment to which the present invention is applied will be described with reference to the drawings.

図を用いて、本実施形態における意味判定システム100、及び意味判定装置1の一例について説明する。図1は、本実施形態における意味判定システム100の一例を示す模式図である。図2は、本実施形態における意味判定システム100の動作の一例を示す模式図である。図4は、本実施形態における学習方法の一例を示す模式図である。 An example of the meaning determination system 100 and the meaning determination device 1 in the present embodiment will be described with reference to the drawings. FIG. 1 is a schematic diagram showing an example of the meaning determination system 100 in the present embodiment. FIG. 2 is a schematic diagram showing an example of the operation of the meaning determination system 100 in the present embodiment. FIG. 4 is a schematic diagram showing an example of the learning method in the present embodiment.

<意味判定システム100>
意味判定システム100は、音データを取得し、取得した音データの意味データの判定するために用いられる。
<Meaning judgment system 100>
The meaning determination system 100 acquires sound data and is used to determine the semantic data of the acquired sound data.

意味判定システム100は、音データから音素データ及びセグメンテーションデータを抽出し、例えば学習データを用いた機械学習により生成されたデータベースを参照し、音素データ及びセグメンテーションデータに対する意味データを判定する。 The semantic determination system 100 extracts the phonetic data and the segmentation data from the sound data, refers to a database generated by machine learning using, for example, the training data, and determines the semantic data for the phonetic data and the segmentation data.

意味判定システム100は、例えば図1に示すように、意味判定装置1を備える。意味判定システム100は、例えば端末2及びサーバ3の少なくとも何れかを備えてもよい。意味判定装置1は、例えば通信網4を介して端末2やサーバ3と接続される。 The meaning determination system 100 includes, for example, a meaning determination device 1 as shown in FIG. The meaning determination system 100 may include, for example, at least one of the terminal 2 and the server 3. The meaning determination device 1 is connected to the terminal 2 and the server 3 via, for example, the communication network 4.

意味判定システム100では、例えば図2に示すように、意味判定装置1は、音データを取得する。その後、意味判定装置1は、例えば抽出モデルを参照して、音データから音素データ及びセグメンテーションデータを抽出する。その後、意味判定装置1は、判定モデルを参照して、音素データ及びセグメンテーションデータに対する意味データを判定する。これにより、意味判定システム100では、音データから抽出した音素データ及びセグメンテーションデータを判定できる。 In the meaning determination system 100, for example, as shown in FIG. 2, the meaning determination device 1 acquires sound data. After that, the meaning determination device 1 extracts phoneme data and segmentation data from the sound data, for example, with reference to the extraction model. After that, the semantic determination device 1 determines the semantic data for the phoneme data and the segmentation data with reference to the determination model. Thereby, the meaning determination system 100 can determine the phoneme data and the segmentation data extracted from the sound data.

抽出モデルは、入力された音データから、音素データ及びセグメンテーションデータを出力するモデルである。抽出モデルは、例えば機械学習により、生成されてもよい。抽出モデルは、例えば一組の予め取得された参照用音データと、参照用音素データ及び参照用セグメンテーションデータとを学習データ(抽出用学習データ)として用いて、生成される。抽出モデルは、複数の抽出用学習データを用いた機械学習により構築された学習済みモデルが用いられてもよい。なお、抽出モデルは、音データから音素データ及びセグメンテーションデータを抽出し得る手段であれば、例えば音素自動ラベリング等の公知の技術を用いてもよい。 The extraction model is a model that outputs phoneme data and segmentation data from the input sound data. The extraction model may be generated, for example, by machine learning. The extraction model is generated by using, for example, a set of pre-acquired reference phoneme data, reference phoneme data, and reference segmentation data as training data (learning data for extraction). As the extraction model, a trained model constructed by machine learning using a plurality of extraction training data may be used. As the extraction model, a known technique such as automatic phoneme labeling may be used as long as it is a means capable of extracting phoneme data and segmentation data from sound data.

判定モデルは、機械学習により生成される。判定モデルとして、例えば参照用音素データと参照用セグメンテーションデータとを入力データとし、入力データに対する判定を示す参照用意味データを出力データとして、入力データと出力データとを一組の学習データ(判定用学習データ)として用いて、生成される。判定モデルは、複数の判定用学習データを用いた機械学習により構築された、音素データ及びセグメンテーションデータから意味データを判定するための学習済みモデルが用いられる。 The judgment model is generated by machine learning. As a judgment model, for example, reference phonetic data and reference segmentation data are used as input data, reference semantic data indicating judgment on the input data is used as output data, and input data and output data are used as a set of training data (for judgment). It is generated by using it as training data). As the judgment model, a trained model for judging semantic data from phonetic data and segmentation data constructed by machine learning using a plurality of judgment learning data is used.

音データは、例えば意味判定システム100によって出力される音素データ及びセグメンテーションデータを抽出するために用いられる。音データは、例えば図示しないマイク等の収音装置により収集された音に基づき生成される。音データは、例えば人の会話に基づいた音である。参照用音データとして、例えば後述する音データと同じデータ形式が用いられる。また、音データは、音から生成されたスペクトログラムの画像データを含んでもよい。 The sound data is used, for example, to extract phoneme data and segmentation data output by the meaning determination system 100. Sound data is generated based on the sound collected by a sound collecting device such as a microphone (not shown). The sound data is, for example, a sound based on a human conversation. As the reference sound data, for example, the same data format as the sound data described later is used. Further, the sound data may include image data of a spectrogram generated from the sound.

音データは、音を符号化したものである。音の符号化には例えば、量子化ビット数とサンプリング周波数と時間とで定まる長さのビット列として表されるパルス符号変調(PCM)方式に基づくものと、音の波の疎密を1bitで表現して一定の間隔で標本化するパルス密度変調(PDM)方式に基づくものなどがある。また、音データは、例えば図3(a)に示すように、時間軸に対する振幅で示されてもよい。 Sound data is a coded version of sound. For example, sound coding is based on the pulse code modulation (PCM) method, which is represented as a bit string with a length determined by the number of quantization bits, sampling frequency, and time, and the density of sound waves is expressed in 1 bit. Some are based on the pulse density modulation (PDM) method, which samples at regular intervals. Further, the sound data may be indicated by an amplitude with respect to the time axis, for example, as shown in FIG. 3A.

スペクトログラムは、例えば図3(b)に示すように、時間軸及び周波数軸に対する強度(振幅)で示され、例えばフーリエ変換(例えば短時間フーリエ変換)を用いて音データから変換される。スペクトログラムは、画像データとして用いられ、例えば1ピクセル×1ピクセルは、0.064sec×15.624Hzの範囲に対応する。 The spectrogram is shown in intensity (amplitude) with respect to the time axis and the frequency axis, for example, as shown in FIG. 3 (b), and is converted from the sound data by using, for example, a Fourier transform (for example, a short-time Fourier transform). The spectrogram is used as image data, for example, 1 pixel × 1 pixel corresponds to a range of 0.064 sec × 15.624 Hz.

音素データは、音の音素を示すデータである。音素データは、例えば音データに含まれる音声の音素を示すデータである。音素データは、例えば音データに含まれる音声の母音と子音とに基づく音素を示すデータである。音素データは、母音と子音とが一対となる音素を示すデータでもよく、例えば「O:HA:YO:U」等のテキストデータを含む。 Phoneme data is data indicating phonemes of sound. The phoneme data is, for example, data indicating a phoneme of a voice included in the sound data. The phoneme data is, for example, data showing phonemes based on voice vowels and consonants included in the sound data. The phoneme data may be data indicating a phoneme in which a vowel and a consonant are paired, and includes text data such as "O: HA: YO: U".

セグメンテーションデータは、音素の開始時点及び終了時点に関するデータである。セグメンテーションデータは、例えば音素の開始時点及び終了時点を示すテキストデータであってもよい。セグメンテーションデータは、例えば音素の開始時点から終了時点までの時間の長さを示すデータであってもよい。セグメンテーションデータは、例えば音素データに含まれる各音素に紐づくセグメンテーションを示すデータであってもよい。セグメンテーションデータは、例えば音素データに含まれる各音素の並びに紐づいて並べられた各セグメンテーションを示すデータでもよい。音素データとセグメンテーションデータとは、例えば表1のように、お互いに紐づけられたテーブルであってもよい。 The segmentation data is data relating to the start time point and the end time point of the phoneme. The segmentation data may be, for example, text data indicating the start time point and the end time point of the phoneme. The segmentation data may be, for example, data indicating the length of time from the start time to the end time of the phoneme. The segmentation data may be, for example, data indicating segmentation associated with each phoneme included in the phoneme data. The segmentation data may be, for example, data indicating each segmentation of each phoneme included in the phoneme data and arranged in association with each other. The phoneme data and the segmentation data may be tables linked to each other, for example, as shown in Table 1.

音素データ及びセグメンテーションデータは、意味判定装置1により、例えば判定モデルを参照し、意味データを判定するために用いられる。音素データ及びセグメンテーションデータは、意味判定装置1により音データから抽出される。 The phoneme data and the segmentation data are used by the semantic determination device 1 to refer to, for example, a determination model and determine the semantic data. The phoneme data and the segmentation data are extracted from the sound data by the meaning determination device 1.

参照用音素データ及び参照用セグメンテーションデータは、抽出モデルを機械学習により生成する際、抽出用学習データとして用いられる。参照用音素データ及び参照用セグメンテーションデータとして、例えば予め取得された音素データ及びセグメンテーションデータが用いられる。参照用音素データ及び参照用セグメンテーションデータとして、例えば音素データ及びセグメンテーションデータとそれぞれ同一のデータ形式が用いられる。参照用音素データ及び参照用セグメンテーションデータは、例えば実際に録音された音に基づく音データと、擬似的に生成された音データとの少なくとも何れかであってもよい。 The reference phoneme data and the reference segmentation data are used as the extraction learning data when the extraction model is generated by machine learning. As the reference phoneme data and the reference segmentation data, for example, the phoneme data and the segmentation data acquired in advance are used. As the reference phoneme data and the reference segmentation data, for example, the same data formats as the phoneme data and the segmentation data are used. The reference phoneme data and the reference segmentation data may be, for example, at least one of sound data based on actually recorded sound and pseudo-generated sound data.

参照用音データは、判定モデルを機械学習により生成する際、判定用学習データとして用いられる。参照用音データは、例えば予め取得された学習用音に基づく音データが用いられる。参照用泳データは、音データと同じデータ形式のものが用いられてもよい。 The reference sound data is used as the judgment learning data when the judgment model is generated by machine learning. As the reference sound data, for example, sound data based on a learning sound acquired in advance is used. The reference swimming data may be in the same data format as the sound data.

参照用音データ及び参照用音素データ及び参照用セグメンテーションデータは、例えばGAN(Generative Adversarial Network)やオートエンコーダをモデルとした機械学習を用いて、生成された生成用データベース、特に、Conditional GANの一種であるpix2pixをモデルとした機械学習を用いて、生成された生成用データベースを用いて擬似的に生成されてもよい。 The reference sound data, the reference phonetic data, and the reference segmentation data are, for example, a generation database generated by using machine learning modeled on a GAN (Generative Adversarial Network) or an autoencoder, in particular, a kind of Conditional GAN. It may be generated in a pseudo manner using the generated generation database by using machine learning using a certain pix2pix as a model.

意味データは、言葉の意味を示すデータである。意味データは、例えば音データの言葉の意味を示すデータであってもよい。意味データは、例えば言葉の意味を示す辞書を参照したテキストデータであってもよい。また、意味データは、音データの音響的特徴が示す意味のデータであってもよい。 Semantic data is data that indicates the meaning of a word. The semantic data may be, for example, data indicating the meaning of a word in sound data. The semantic data may be, for example, text data referring to a dictionary indicating the meaning of a word. Further, the semantic data may be semantic data indicated by the acoustic characteristics of the sound data.

参照用意味データは、判定モデルを機械学習により生成する際、判定用学習データとして用いられる意味データである。参照用意味データは、意味データと同一の形式のデータが用いられてもよい。 The reference semantic data is semantic data used as the determination learning data when the determination model is generated by machine learning. As the reference semantic data, data in the same format as the semantic data may be used.

<学習方法>
本実施形態における学習方法は、入力された音データから音素データ及びセグメンテーションデータを抽出するために用いられる抽出モデル、及び音素データ及びセグメンテーションデータに対する意味データを判定するために用いられる判定モデルを生成する際に用いられる。
<Learning method>
The learning method in the present embodiment generates an extraction model used for extracting phoneme data and segmentation data from input sound data, and a judgment model used for determining semantic data for phoneme data and segmentation data. Used when.

学習方法は、例えば図4(a)に示すように、抽出モデルを生成する。学習方法は、参照用音データを第1入力データとし、参照用音素データ及び参照用セグメンテーションデータを第1出力データとして、第1入力データと第1出力データとを一対のデータセットとする抽出用学習データを取得する。学習方法は、複数の抽出用学習データを用いた機械学習により、音データから音素データ及びセグメンテーションデータを抽出するための抽出モデルを生成する。 The learning method generates an extraction model, for example, as shown in FIG. 4 (a). The learning method is for extraction in which the reference sound data is used as the first input data, the reference sound element data and the reference segmentation data are used as the first output data, and the first input data and the first output data are used as a pair of data sets. Get training data. The learning method generates an extraction model for extracting phonetic data and segmentation data from sound data by machine learning using a plurality of learning data for extraction.

また、学習方法は、例えば図4(b)に示すように、判定モデルを生成する。学習方法は、参照用音素データ及び参照用セグメンテーションデータを第2入力データとし、参照用意味データを第2出力データとして、第2入力データと第2出力データとを一対のデータセットとする判定用学習データを取得する。学習方法は、複数の判定用学習データを用いた機械学習により、音素データ及びセグメンテーションデータから意味データを判定するための判定モデルを生成する。 Further, the learning method generates a determination model, for example, as shown in FIG. 4 (b). The learning method is for determination that the reference phonetic data and the reference segmentation data are used as the second input data, the reference semantic data is used as the second output data, and the second input data and the second output data are used as a pair of data sets. Get training data. The learning method generates a judgment model for judging semantic data from phonetic data and segmentation data by machine learning using a plurality of judgment learning data.

学習方法では、例えばニューラルネットワークをモデルとした機械学習を用いて、上述したデータベースを生成する。上述したデータベースは、例えばCNN(Convolution Neural Network)等のニューラルネットワークをモデルとした機械学習を用いて生成されるほか、任意のモデルが用いられてもよい。 In the learning method, for example, machine learning using a neural network as a model is used to generate the above-mentioned database. The above-mentioned database is generated by using machine learning using a neural network such as CNN (Convolution Neural Network) as a model, or any model may be used.

抽出モデルには、例えば参照用音データ(第1入力データ)と参照用音素データ及び参照用セグメンテーションデータ(第1出力データ)との間における連関度を有する第1連関性が記憶される。連関度は、第1入力データと第1出力データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の3値以上(3段階以上)で示されるほか、2値(2段階)で示されてもよい。 In the extraction model, for example, the first association having a degree of association between the reference sound data (first input data), the reference phoneme data, and the reference segmentation data (first output data) is stored. The degree of association indicates the degree of connection between the first input data and the first output data. For example, it can be determined that the higher the degree of association, the stronger the connection of each data. The degree of association may be indicated by three values or more (three stages or more) such as percentage, or may be indicated by two values (two stages).

例えば第1連関性は、多対多の情報(複数の第1入力データ、対、複数の第1出力データ)の間における繋がりの度合いにより構築される。第1連関性は、機械学習の過程で適宜更新され、例えば複数の第1入力データ、及び複数の第1出力データに基づいて最適化された関数(分類器)を示す。なお、第1連関性は、例えば各データの間における繋がりの度合いを示す複数の連関度を有してもよい。連関度は、例えばデータベースがニューラルネットワークで構築される場合、重み変数に対応させることができる。 For example, the first association is constructed by the degree of connection between many-to-many information (a plurality of first input data, a pair, a plurality of first output data). The first association indicates a function (classifier) that is appropriately updated in the process of machine learning and is optimized based on, for example, a plurality of first input data and a plurality of first output data. The first association may have a plurality of association degrees indicating the degree of connection between the data, for example. The degree of association can correspond to a weight variable, for example, when the database is constructed with a neural network.

このため、意味判定システム100では、例えば分類器の判定した結果を全て踏まえた第1連関性を用いて、音データに適した音素データ及びセグメンテーションデータを選択する。これにより、音データが、参照用音データと同一又は類似である場合のほか、非類似である場合においても、音データに適した音素データ及びセグメンテーションデータを定量的に選択することができる。 Therefore, in the meaning determination system 100, for example, the phoneme data and the segmentation data suitable for the sound data are selected by using the first association based on all the determination results of the classifier. Thereby, the phoneme data and the segmentation data suitable for the sound data can be quantitatively selected not only when the sound data is the same as or similar to the reference sound data but also when the sound data is dissimilar.

第1連関性は、例えば図5に示すように、複数の第1出力データと、複数の第1入力データとの間における繋がりの度合いを示してもよい。この場合、第1連関性を用いることで、複数の第1出力データ(図5では「参照用音素データA」+「参照用セグメンテーションデータA」~「参照用音素データC」+「参照用セグメンテーションデータC」)のそれぞれに対し、複数の第1入力データ(図5では「参照用音データA」~「参照用音データC」)の関係の度合いを紐づけて記憶させることができる。このため、例えば第1連関性を介して、1つの第1出力データに対して、複数の第1入力データを紐づけることができる。これにより、音データに対して多角的な音素データ及びセグメンテーションデータの選択を実現することができる。 The first association may indicate the degree of connection between the plurality of first output data and the plurality of first input data, for example, as shown in FIG. In this case, by using the first association, a plurality of first output data (in FIG. 5, "reference phonetic data A" + "reference segmentation data A" to "reference phonetic data C" + "reference segmentation" Each of the data C) can be stored in association with the degree of relationship between the plurality of first input data (“reference sound data A” to “reference sound data C” in FIG. 5). Therefore, for example, a plurality of first input data can be associated with one first output data via the first association. As a result, it is possible to realize the selection of multifaceted phoneme data and segmentation data for the sound data.

第1連関性は、例えば各第1出力データと、各第1入力データとをそれぞれ紐づける複数の連関度を有する。連関度は、例えば百分率、10段階、又は5段階等の3段階以上で示され、例えば線の特徴(例えば太さ等)で示される。例えば、第1入力データに含まれる「参照用音データA」は、第1出力データに含まれる「参照用音素データA」+「参照用セグメンテーションデータA」との間の連関度AA「73%」を示し、第1出力データに含まれる「参照用音素データB」+「参照用セグメンテーションデータB」との間の連関度AB「12%」を示す。すなわち、「連関度」は、各データ間における繋がりの度合いを示しており、例えば連関度が高いほど、各データの繋がりが強いことを示す。 The first association has, for example, a plurality of association degrees for associating each first output data with each first input data. The degree of association is shown in three or more steps such as percentage, 10 steps, or 5 steps, and is shown by, for example, the characteristics of the line (for example, thickness). For example, the "reference sound data A" included in the first input data has a degree of association AA "73%" between the "reference sound element data A" and the "reference segmentation data A" included in the first output data. , And indicates the degree of association AB “12%” between the “reference phonetic data B” and the “reference segmentation data B” included in the first output data. That is, the "degree of association" indicates the degree of connection between each data, and for example, the higher the degree of association, the stronger the connection of each data.

また、抽出モデルは、第1入力データと第1出力データとの間に少なくとも1以上の隠れ層が設けられ、機械学習させるようにしてもよい。第1入力データ又は隠れ層データの何れか一方又は両方において上述した連関度が設定され、これが各データの重み付けとなり、これに基づいて出力の選択が行われる。そして、この連関度がある閾値を超えた場合に、その出力を選択するようにしてもよい。 Further, the extraction model may be provided with at least one hidden layer between the first input data and the first output data so as to be machine-learned. The above-mentioned degree of association is set in either one or both of the first input data and the hidden layer data, and this is the weighting of each data, and the output is selected based on this. Then, when this degree of association exceeds a certain threshold value, the output may be selected.

判定モデルには、例えば参照用音素データ及び参照用セグメンテーションデータ(第2入力データ)と参照用意味データ(第2出力データ)との間における連関度を有する第2連関性が記憶される。連関度は、第2入力データと第2出力データとの繋がりの度合いを示しており、例えば連関度が高いほど各データの繋がりが強いと判断することができる。連関度は、例えば百分率等の3値以上(3段階以上)で示されるほか、2値(2段階)で示されてもよい。 In the determination model, for example, a second association having a degree of association between the reference phoneme data and the reference segmentation data (second input data) and the reference semantic data (second output data) is stored. The degree of association indicates the degree of connection between the second input data and the second output data. For example, it can be determined that the higher the degree of association, the stronger the connection of each data. The degree of association may be indicated by three values or more (three stages or more) such as percentage, or may be indicated by two values (two stages).

例えば第2連関性は、多対多の情報(複数の第2入力データ、対、複数の第2出力データ)の間における繋がりの度合いにより構築される。第2連関性は、機械学習の過程で適宜更新され、例えば複数の第2入力データ、及び複数の第2出力データに基づいて最適化された関数(分類器)を示す。なお、第2連関性は、例えば各データの間における繋がりの度合いを示す複数の連関度を有してもよい。連関度は、例えばデータベースがニューラルネットワークで構築される場合、重み変数に対応させることができる。 For example, the second association is constructed by the degree of connection between many-to-many information (plurality of second input data, pair, plurality of second output data). The second association indicates a function (classifier) that is appropriately updated in the process of machine learning and is optimized based on, for example, a plurality of second input data and a plurality of second output data. The second linkage may have a plurality of linkage degrees indicating the degree of connection between the data, for example. The degree of association can correspond to a weight variable, for example, when the database is constructed with a neural network.

このため、意味判定システム100では、例えば分類器の判定した結果を全て踏まえた第2連関性を用いて、音素データ及びセグメンテーションデータに適した意味データを選択する。これにより、音素データ及びセグメンテーションデータが、参照用音素データ及び参照用セグメンテーションデータと同一又は類似である場合のほか、非類似である場合においても、音素データ及びセグメンテーションデータに適した意味データを定量的に選択することができる。 Therefore, in the semantic determination system 100, for example, the semantic data suitable for the phoneme data and the segmentation data is selected by using the second association based on all the determination results of the classifier. As a result, even when the phonetic data and the segmentation data are the same as or similar to the reference phonetic data and the reference segmentation data, or even when they are dissimilar, the semantic data suitable for the phonetic data and the segmentation data is quantitatively obtained. Can be selected for.

第2連関性は、例えば図6に示すように、複数の第2出力データと、複数の第2入力データとの間における繋がりの度合いを示してもよい。この場合、第2連関性を用いることで、複数の第2出力データ(図6では「参照用意味データA」~「参照用意味データC」)のそれぞれに対し、複数の第2入力データ(図6では「参照用音素データA」+「セグメンテーションデータA」~「参照用音素データC」+「参照用セグメンテーションデータ」)の関係の度合いを紐づけて記憶させることができる。このため、例えば第2連関性を介して、1つの第2出力データに対して、複数の第2入力データを紐づけることができる。これにより、音素データ及びセグメンテーションデータに対して多角的な意味データの選択を実現することができる。 The second association may indicate the degree of connection between the plurality of second output data and the plurality of second input data, for example, as shown in FIG. In this case, by using the second association, a plurality of second input data ("reference semantic data A" to "reference semantic data C" in FIG. 6) are used for each of the plurality of second output data ("reference semantic data A" to "reference semantic data C" in FIG. 6). In FIG. 6, the degree of the relationship of "reference phonetic data A" + "segmentation data A" to "reference phonetic data C" + "reference segmentation data") can be stored in association with each other. Therefore, for example, a plurality of second input data can be associated with one second output data via the second association. As a result, it is possible to realize the selection of multifaceted semantic data for phoneme data and segmentation data.

第2連関性は、例えば各第2出力データと、各第2入力データとをそれぞれ紐づける複数の連関度を有する。連関度は、例えば百分率、10段階、又は5段階等の3段階以上で示され、例えば線の特徴(例えば太さ等)で示される。例えば、第2入力データに含まれる「参照用音素データA」+「参照用セグメンテーションデータA」は、第2出力データに含まれる「参照用意味データA」との間の連関度AA「73%」を示し、第2出力データに含まれる「参照用意味データB」との間の連関度AB「12%」を示す。すなわち、「連関度」は、各データ間における繋がりの度合いを示しており、例えば連関度が高いほど、各データの繋がりが強いことを示す。 The second association has, for example, a plurality of association degrees for associating each second output data with each second input data. The degree of association is shown in three or more steps such as percentage, 10 steps, or 5 steps, and is shown by, for example, the characteristics of the line (for example, thickness). For example, the "reference phonetic data A" + "reference segmentation data A" included in the second input data has a degree of association AA "73%" with the "reference semantic data A" included in the second output data. , And indicates the degree of association AB “12%” with the “reference semantic data B” included in the second output data. That is, the "degree of association" indicates the degree of connection between each data, and for example, the higher the degree of association, the stronger the connection of each data.

また、判定モデルは、第2入力データと第2出力データとの間に少なくとも1以上の隠れ層が設けられ、機械学習させるようにしてもよい。第2入力データ又は隠れ層データの何れか一方又は両方において上述した連関度が設定され、これが各データの重み付けとなり、これに基づいて出力の選択が行われる。そして、この連関度がある閾値を超えた場合に、その出力を選択するようにしてもよい。 Further, in the determination model, at least one hidden layer may be provided between the second input data and the second output data, and machine learning may be performed. The above-mentioned degree of association is set in either one or both of the second input data and the hidden layer data, and this is the weighting of each data, and the output is selected based on this. Then, when this degree of association exceeds a certain threshold value, the output may be selected.

<意味判定装置1>
次に、図7、図8を参照して、本実施形態における意味判定装置1の一例を説明する。図7(a)は、本実施形態における意味判定装置1の構成の一例を示す模式図であり、図7(b)は、本実施形態における意味判定装置1の機能の一例を示す模式図である。図7(c)は、DB生成部16の一例を示す模式図である。図8は、処理部12の一例を示す模式図である。
<Meaning determination device 1>
Next, an example of the meaning determination device 1 in the present embodiment will be described with reference to FIGS. 7 and 8. FIG. 7A is a schematic diagram showing an example of the configuration of the meaning determination device 1 in the present embodiment, and FIG. 7B is a schematic diagram showing an example of the function of the meaning determination device 1 in the present embodiment. be. FIG. 7C is a schematic diagram showing an example of the DB generation unit 16. FIG. 8 is a schematic diagram showing an example of the processing unit 12.

意味判定装置1として、例えばラップトップ(ノート)PC又はデスクトップPC等の電子機器が用いられる。意味判定装置1は、例えば図7(a)に示すように、筐体10と、CPU(Central Processing Unit)101と、ROM(Read Only Memory)102と、RAM(Random Access Memory)103と、保存部104と、I/F105~107とを備える。各構成101~107は、内部バス110により接続される。 As the meaning determination device 1, for example, an electronic device such as a laptop (notebook) PC or a desktop PC is used. As shown in FIG. 7A, for example, the meaning determination device 1 stores the housing 10, the CPU (Central Processing Unit) 101, the ROM (Read Only Memory) 102, the RAM (Random Access Memory) 103, and the storage. A unit 104 and I / F 105 to 107 are provided. Each configuration 101 to 107 is connected by an internal bus 110.

CPU101は、意味判定装置1全体を制御する。ROM102は、CPU101の動作コードを格納する。RAM103は、CPU101の動作時に使用される作業領域である。保存部104は、データベースや学習対象データ等の各種情報が記憶される。保存部104として、例えばHDD(Hard Disk Drive)のほか、SSD(Solid State Drive)等のデータ保存装置が用いられる。なお、例えば意味判定装置1は、図示しないGPU(Graphics Processing Unit)を有してもよい。 The CPU 101 controls the entire meaning determination device 1. The ROM 102 stores the operation code of the CPU 101. The RAM 103 is a work area used when the CPU 101 operates. The storage unit 104 stores various information such as a database and learning target data. As the storage unit 104, for example, in addition to an HDD (Hard Disk Drive), a data storage device such as an SSD (Solid State Drive) is used. For example, the meaning determination device 1 may have a GPU (Graphics Processing Unit) (not shown).

I/F105は、通信網4を介して、必要に応じて端末2、サーバ3、ウェブサイト等との各種情報の送受信を行うためのインターフェースである。I/F106は、入力部108との情報の送受信を行うためのインターフェースである。入力部108として、例えばキーボードが用いられ、意味判定装置1の使用者等は、入力部108を介して、各種情報、又は意味判定装置1の制御コマンド等を入力する。また、入力部108は、収音が可能な図示しないマイクを備えていてもよい。I/F107は、表示部109との各種情報の送受信を行うためのインターフェースである。表示部109は、保存部104に保存された各種情報、又は意味データ等を表示する。表示部109として、ディスプレイが用いられ、例えばタッチパネル式の場合、入力部108と一体に設けられる。また、表示部109は、スピーカが用いられてもよい。 The I / F 105 is an interface for transmitting and receiving various information to and from the terminal 2, the server 3, the website, etc., as needed, via the communication network 4. The I / F 106 is an interface for transmitting / receiving information to / from the input unit 108. For example, a keyboard is used as the input unit 108, and the user or the like of the meaning determination device 1 inputs various information, a control command of the meaning determination device 1, or the like via the input unit 108. Further, the input unit 108 may include a microphone (not shown) capable of collecting sound. The I / F 107 is an interface for transmitting and receiving various information to and from the display unit 109. The display unit 109 displays various information stored in the storage unit 104, semantic data, and the like. A display is used as the display unit 109, and for example, in the case of a touch panel type, it is provided integrally with the input unit 108. Further, a speaker may be used for the display unit 109.

図7(b)は、意味判定装置1の機能の一例を示す模式図である。意味判定装置1は、取得部11と、処理部12と、出力部14と、記憶部15とを備え、例えばDB生成部16を有してもよい。DB生成部16は、例えば図7(c)に示すように、抽出モデル生成部161と、判定モデル生成部162とを有する。なお、図7(b)、図7(c)、図8に示した各機能は、CPU101が、RAM103を作業領域として、保存部104等に記憶されたプログラムを実行することにより実現され、例えば人工知能等により制御されてもよい。 FIG. 7B is a schematic diagram showing an example of the function of the meaning determination device 1. The meaning determination device 1 includes an acquisition unit 11, a processing unit 12, an output unit 14, and a storage unit 15, and may include, for example, a DB generation unit 16. The DB generation unit 16 has, for example, an extraction model generation unit 161 and a determination model generation unit 162, as shown in FIG. 7 (c). The functions shown in FIGS. 7 (b), 7 (c), and 8 are realized by the CPU 101 executing a program stored in the storage unit 104 or the like using the RAM 103 as a work area, for example. It may be controlled by artificial intelligence or the like.

<<取得部11>>
取得部11は、音データを取得する。取得したデータは、上述した音素データ及びセグメンテーションデータを抽出する際に用いられる。取得部11は、例えば入力部108から入力された音データを取得するほか、例えば通信網4を介して、端末2等から音データを取得してもよい。
<< Acquisition unit 11 >>
The acquisition unit 11 acquires sound data. The acquired data is used when extracting the above-mentioned phoneme data and segmentation data. In addition to acquiring the sound data input from the input unit 108, for example, the acquisition unit 11 may acquire the sound data from the terminal 2 or the like via, for example, the communication network 4.

取得部11は、例えば上述した各種モデルの生成に用いられる学習データを取得してもよい。取得部11は、例えば入力部108から入力された学習データを取得するほか、例えば通信網4を介して、端末2等から学習データを取得してもよい。 The acquisition unit 11 may acquire training data used for generating the various models described above, for example. In addition to acquiring the learning data input from the input unit 108, for example, the acquisition unit 11 may acquire the learning data from the terminal 2 or the like via, for example, the communication network 4.

例えば、抽出モデルの生成に用いられる抽出用学習データとして、参照用音データ及び参照用音素データ及び参照用セグメンテーションデータが挙げられる。また、例えば判定モデルの生成に用いられる判定用学習データとして、参照用音素データ及び参照用セグメンテーションデータ及び参照用意味データが挙げられる。 For example, as the extraction training data used for generating the extraction model, reference sound data, reference phoneme data, and reference segmentation data can be mentioned. Further, for example, as the judgment learning data used for generating the judgment model, reference phoneme data, reference segmentation data, and reference semantic data can be mentioned.

<<処理部12>>
処理部12は、例えば抽出モデルを参照し、音データから音素データ及びセグメンテーションデータを抽出し、判定モデルを参照し、音素データ及びセグメンテーションデータに対する意味データを判定する。
<< Processing unit 12 >>
The processing unit 12 refers to, for example, an extraction model, extracts phoneme data and segmentation data from sound data, refers to a determination model, and determines semantic data for phoneme data and segmentation data.

処理部12は、図8に示すように、取得部11に接続される抽出処理部121を有する。また、処理部12は、抽出処理部121に接続される判定処理部122を有する。 As shown in FIG. 8, the processing unit 12 has an extraction processing unit 121 connected to the acquisition unit 11. Further, the processing unit 12 has a determination processing unit 122 connected to the extraction processing unit 121.

抽出処理部121は、例えば抽出モデルを参照し、音データから音素データ及びセグメンテーションデータを抽出する。抽出処理部121は、例えば抽出モデルを参照し、音データに対して、連関性の最も高い音素データ及びセグメンテーションデータを抽出する。また、例えば予め設定された閾値以上の連関度を有する複数の参照用音素データ及び参照用セグメンテーションデータを、音素データ及びセグメンテーションデータとして選択してもよい。また、選択される参照用音素データ及び参照用セグメンテーションデータの数については、任意に設定できる。 The extraction processing unit 121 refers to, for example, an extraction model, and extracts phoneme data and segmentation data from the sound data. The extraction processing unit 121 refers to, for example, an extraction model, and extracts phoneme data and segmentation data having the highest relevance to the sound data. Further, for example, a plurality of reference phoneme data and reference segmentation data having a degree of association equal to or higher than a preset threshold value may be selected as the phoneme data and the segmentation data. Further, the number of selected reference phoneme data and reference segmentation data can be arbitrarily set.

判定処理部122は、例えば判定モデルを参照し、音素データ及びセグメンテーションデータを入力として、入力に対する意味データを判定する。判定処理部122は、例えば判定モデルを参照し、音素データ及びセグメンテーションデータに対して、連関性の最も高い意味データを抽出する。また、例えば予め設定された閾値以上の連関度を有する複数の参照用意味データを、意味データとして選択してもよい。また、選択される参照用意味データの数については、任意に設定できる。 The determination processing unit 122 refers to, for example, a determination model, takes phoneme data and segmentation data as inputs, and determines semantic data for the input. The determination processing unit 122 refers to, for example, a determination model, and extracts semantic data having the highest association with the phoneme data and the segmentation data. Further, for example, a plurality of reference semantic data having a degree of association equal to or higher than a preset threshold value may be selected as the semantic data. In addition, the number of selected semantic data for reference can be set arbitrarily.

<<出力部14>>
出力部14は、意味データを出力する。出力部14は、I/F107を介して表示部109に意味データを出力するほか、例えばI/F105を介して、端末2等に意味データを出力する。
<< Output unit 14 >>
The output unit 14 outputs semantic data. The output unit 14 outputs the semantic data to the display unit 109 via the I / F 107, and also outputs the semantic data to the terminal 2 or the like via, for example, the I / F 105.

<<記憶部15>>
記憶部15は、保存部104に保存されたデータベース等の各種データを必要に応じて取り出す。記憶部15は、取得部11、処理部12、DB生成部16により取得又は生成された各種データを、必要に応じて保存部104に保存する。
<< Memory unit 15 >>
The storage unit 15 retrieves various data such as a database stored in the storage unit 104 as needed. The storage unit 15 stores various data acquired or generated by the acquisition unit 11, the processing unit 12, and the DB generation unit 16 in the storage unit 104 as needed.

<<DB生成部16>>
DB生成部16は、複数の学習データを用いた機械学習によりデータベースを生成する。機械学習には、例えば上述したニューラルネットワーク等が用いられる。
<< DB generation unit 16 >>
The DB generation unit 16 generates a database by machine learning using a plurality of learning data. For machine learning, for example, the above-mentioned neural network or the like is used.

DB生成部16は、例えば、抽出モデル生成部161と、判定モデル生成部162とを有する。 The DB generation unit 16 has, for example, an extraction model generation unit 161 and a determination model generation unit 162.

抽出モデル生成部161は、例えば一組の参照用音データと、参照用音素データ及び参照用セグメンテーションデータと、を抽出用学習データとして、複数の抽出用学習データを用いた機械学習により抽出モデルを生成する。 The extraction model generation unit 161 uses, for example, a set of reference sound data, reference phonetic data, and reference segmentation data as learning data for extraction, and creates an extraction model by machine learning using a plurality of learning data for extraction. Generate.

判定モデル生成部162は、例えば一組の参照用音素データ及び参照用セグメンテーションデータと、参照用意味データと、を判定用学習データとして、複数の判定用学習データを用いた機械学習により判定モデルを生成する。 The judgment model generation unit 162 uses, for example, a set of reference phonetic data, reference segmentation data, and reference semantic data as learning data for judgment, and uses machine learning using a plurality of learning data for judgment to generate a judgment model. Generate.

<端末2>
端末2は、例えば意味判定システム100を用いたサービスのユーザ等が保有し、通信網4を介して意味判定装置1と接続される。端末2は、例えばデータベースを生成する電子機器を示してもよい。端末2は、例えばパーソナルコンピュータや、タブレット端末等の電子機器が用いられる。端末2は、例えば意味判定装置1の備える機能のうち、少なくとも一部の機能を備えてもよい。また、端末2は、音データ、及び各学習データを取得するための図示しないマイクを備えていてもよい。端末2は、ユーザに意味データを提示できる図示しないディスプレイ、又はスピーカを備えていてもよい。
<Terminal 2>
The terminal 2 is owned by, for example, a user of a service using the meaning determination system 100, and is connected to the meaning determination device 1 via a communication network 4. The terminal 2 may indicate, for example, an electronic device that generates a database. As the terminal 2, for example, an electronic device such as a personal computer or a tablet terminal is used. The terminal 2 may have at least a part of the functions of the meaning determination device 1, for example. Further, the terminal 2 may include a microphone (not shown) for acquiring sound data and each learning data. The terminal 2 may include a display (not shown) or a speaker capable of presenting semantic data to the user.

<サーバ3>
サーバ3は、通信網4を介して意味判定装置1と接続される。サーバ3は、過去の各種データ等が記憶され、必要に応じて意味判定装置1から各種データが送信される。サーバ3は、例えば意味判定装置1の備える機能のうち、少なくとも一部の機能を備えてもよく、例えば意味判定装置1の代わりに少なくとも一部の処理を行ってもよい。サーバ3は、例えば意味判定装置1の保存部104に記憶された各種データのうち少なくとも一部が記憶され、例えば保存部104の代わりに用いられてもよい。
<Server 3>
The server 3 is connected to the meaning determination device 1 via the communication network 4. Various past data and the like are stored in the server 3, and various data are transmitted from the meaning determination device 1 as needed. The server 3 may have at least a part of the functions of the meaning determination device 1, for example, and may perform at least a part of the processing instead of the meaning determination device 1, for example. The server 3 stores, for example, at least a part of various data stored in the storage unit 104 of the meaning determination device 1, and may be used in place of the storage unit 104, for example.

<通信網4>
通信網4は、例えば意味判定装置1が通信回路を介して接続されるインターネット網等である。通信網4は、いわゆる光ファイバ通信網で構成されてもよい。また、通信網4は、有線通信網のほか、無線通信網等の公知の通信技術で実現してもよい。
<Communication network 4>
The communication network 4 is, for example, an internet network or the like to which the meaning determination device 1 is connected via a communication circuit. The communication network 4 may be configured by a so-called optical fiber communication network. Further, the communication network 4 may be realized by a known communication technology such as a wireless communication network in addition to the wired communication network.

(意味判定システム100の動作)
次に、本実施形態における意味判定システム100の動作の一例について説明する。図9は、本実施形態における意味判定システム100の動作の一例を示すフローチャートである。
(Operation of the meaning determination system 100)
Next, an example of the operation of the meaning determination system 100 in the present embodiment will be described. FIG. 9 is a flowchart showing an example of the operation of the meaning determination system 100 in the present embodiment.

<取得手段S110>
取得手段S110は、例えば収音装置により収音された音に基づき生成された音データを取得する。取得手段S110では、例えば取得部11が、音データを取得する。また、取得部11は、例えば上述した抽出モデルの抽出用学習データに含まれる参照用音データと同じ形式の音データを取得してもよい。取得部11は、例えば端末2等から音データを取得するほか、例えば記憶部15を介して、保存部104に取得した音データを保存してもよい。
<Acquisition means S110>
The acquisition means S110 acquires sound data generated based on the sound collected by, for example, a sound collecting device. In the acquisition means S110, for example, the acquisition unit 11 acquires sound data. Further, the acquisition unit 11 may acquire sound data in the same format as the reference sound data included in the extraction learning data of the extraction model described above, for example. In addition to acquiring sound data from, for example, a terminal 2, the acquisition unit 11 may store the acquired sound data in the storage unit 104 via, for example, the storage unit 15.

<抽出手段S120>
抽出手段S120は、取得手段S110で取得した音データから音素データ及びセグメンテーションデータを抽出する。抽出手段S120は、例えば抽出処理部121が、上述した学習方法により予め生成された抽出モデルを参照し、音データから音素データ及びセグメンテーションデータを抽出する。また、抽出手段S120は、例えば判定モデルの判定用学習データに含まれる参照用音素データ及び参照用セグメンテーションデータと同じ形式の音素データ及びセグメンテーションデータを抽出してもよい。また、抽出手段S120は、抽出モデルを用いることなく、他の公知の技術によって、音データから音素データ及びセグメンテーションデータを抽出してもよい。
<Extraction means S120>
The extraction means S120 extracts phoneme data and segmentation data from the sound data acquired by the acquisition means S110. In the extraction means S120, for example, the extraction processing unit 121 refers to the extraction model generated in advance by the learning method described above, and extracts phoneme data and segmentation data from the sound data. Further, the extraction means S120 may extract, for example, phoneme data and segmentation data in the same format as the reference phoneme data and the reference segmentation data included in the determination learning data of the determination model. Further, the extraction means S120 may extract phoneme data and segmentation data from sound data by another known technique without using an extraction model.

また、抽出手段S120は、例えば記憶部15を介して、音データから抽出した音素データ及びセグメンテーションデータを保存部104に保存してもよい。なお、取得した各データは、例えばサーバ3や他の意味判定装置1に送信されてもよい。 Further, the extraction means S120 may store the phoneme data and the segmentation data extracted from the sound data in the storage unit 104, for example, via the storage unit 15. The acquired data may be transmitted to, for example, the server 3 or another meaning determination device 1.

<判定手段S130>
判定手段S130は、例えば判定モデルを参照し、抽出手段S120で抽出した音素データ及びセグメンテーションデータに対する意味データを判定する。判定手段S130では、例えば判定処理部122は、予め生成された判定モデルを参照し、抽出手段S120で抽出した音素データ及びセグメンテーションデータに対する意味データを判定する。これにより、音素データとセグメンテーションデータとに対する適切な意味データを判定することができる。
<Determining means S130>
The determination means S130 refers to, for example, a determination model, and determines semantic data for the phoneme data and the segmentation data extracted by the extraction means S120. In the determination means S130, for example, the determination processing unit 122 refers to the determination model generated in advance, and determines the semantic data for the phoneme data and the segmentation data extracted by the extraction means S120. This makes it possible to determine appropriate semantic data for the phoneme data and the segmentation data.

判定手段S130は、例えば記憶部15を介して、判定した意味データを保存部104に保存してもよい。なお、取得した意味データは、例えば端末2やサーバ3や他の意味判定装置1に送信されてもよい。判定する意味データはひとつの音素データ及びセグメンテーションデータに対して複数の意味データを取得してもよい。 The determination means S130 may store the determined semantic data in the storage unit 104, for example, via the storage unit 15. The acquired semantic data may be transmitted to, for example, the terminal 2, the server 3, or another semantic determination device 1. As the semantic data to be determined, a plurality of semantic data may be acquired for one phoneme data and segmentation data.

<出力手段S140>
出力手段S140では、例えば出力部14は、判定手段S130により判定された意味データを、表示部109や端末2等に出力する。
<Output means S140>
In the output means S140, for example, the output unit 14 outputs the semantic data determined by the determination means S130 to the display unit 109, the terminal 2, and the like.

上述した各手段を行うことで、本実施形態における意味判定システム100の動作が完了する。 By performing each of the above-mentioned means, the operation of the meaning determination system 100 in the present embodiment is completed.

本発明の実施形態を説明したが、この実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 Although embodiments of the present invention have been described, these embodiments are presented as examples and are not intended to limit the scope of the invention. These novel embodiments can be implemented in various other embodiments, and various omissions, replacements, and changes can be made without departing from the gist of the invention. These embodiments and modifications thereof are included in the scope and gist of the invention, and are also included in the scope of the invention described in the claims and the equivalent scope thereof.

1 :意味判定装置
2 :端末
3 :サーバ
4 :通信網
10 :筐体
11 :取得部
12 :処理部
14 :出力部
15 :記憶部
16 :DB生成部
100 :意味判定システム
101 :CPU
102 :ROM
103 :RAM
104 :保存部
105 :I/F
106 :I/F
107 :I/F
108 :入力部
109 :表示部
110 :内部バス
121 :抽出処理部
122 :判定処理部
161 :抽出モデル生成部
162 :判定モデル生成部
S110 :取得手段
S120 :抽出手段
S130 :判定手段
S140 :出力手段
1: Meaning determination device 2: Terminal 3: Server 4: Communication network 10: Housing 11: Acquisition unit 12: Processing unit 14: Output unit 15: Storage unit 16: DB generation unit 100: Meaning determination system 101: CPU
102: ROM
103: RAM
104: Storage unit 105: I / F
106: I / F
107: I / F
108: Input unit 109: Display unit 110: Internal bus 121: Extraction processing unit 122: Judgment processing unit 161: Extraction model generation unit 162: Judgment model generation unit S110: Acquisition means S120: Extraction means S130: Judgment means S140: Output means

Claims (4)

音データを取得する取得ステップと、
前記取得ステップにより取得した音データから、音素を示す音素データと、前記音素の開始時点及び終了時点に関するセグメンテーションデータとを抽出する抽出ステップと、
予め取得された参照用音素データと参照用セグメンテーションデータとを含む入力データと、言葉の意味を示す意味データを含む出力データとを一組のデータセットとする判定用学習データを複数用いて、機械学習により生成された判定モデルを参照して、前記音素データと前記セグメンテーションデータとに対する意味データを判定する判定ステップとをコンピュータに実行させること
を特徴とする意味判定プログラム。
The acquisition step to acquire the sound data and
An extraction step for extracting phoneme data indicating a phoneme and segmentation data relating to a start time point and an end time point of the phoneme from the sound data acquired by the acquisition step.
A machine using a plurality of judgment training data in which input data including reference phonetic element data and reference segmentation data acquired in advance and output data including semantic data indicating the meaning of a word are set as a set of data. A semantic determination program characterized in that a computer is made to execute a determination step for determining semantic data for the phonetic data and the segmentation data with reference to a determination model generated by learning.
前記抽出ステップは、予め取得された参照用音データを含む抽出用入力データと、参照用音素データと参照用セグメンテーションデータとを含む抽出用出力データとを一組のデータセットとする抽出用学習データを複数用いて、機械学習により生成された抽出モデルを参照して、前記音データから前記音素データと前記セグメンテーションデータとを抽出すること
を特徴とする請求項1に記載の意味判定プログラム。
The extraction step is learning data for extraction in which a set of data sets is input data for extraction including reference sound data acquired in advance and output data for extraction including reference phonetic element data and reference segmentation data. The meaning determination program according to claim 1, wherein the phonetic element data and the segmentation data are extracted from the sound data with reference to an extraction model generated by machine learning.
前記抽出モデルは、
擬似的に生成された前記参照用音データを含む抽出用入力データと、
前記参照用音素データと前記参照用セグメンテーションデータとを含む抽出用出力データと
を一組のデータセットとする前記抽出用学習データを用いて、機械学習により生成されること
を特徴とする請求項2に記載の意味判定プログラム。
The extraction model is
Extraction input data including the reference sound data generated in a pseudo manner, and
2. The meaning judgment program described in.
音データを取得する取得手段と、
前記取得手段により取得した音データから音素を示す音素データと、前記音素の開始時点から終了時点までの時間差を示すセグメンテーションデータとを抽出する抽出手段と、
予め取得された参照用音素データと参照用セグメンテーションデータとを含む入力データと、言葉の意味を示す意味データを含む出力データとを一組のデータセットとする判定用学習データを複数用いて、機械学習により生成された判定モデルが記憶されたデータベースと、
前記判定モデルを参照して、前記音素データと前記セグメンテーションデータとに対する意味データを判定する判定手段とを備えること
を特徴とする意味判定システム。
The acquisition method for acquiring sound data and
An extraction means for extracting phoneme data indicating a phoneme from the sound data acquired by the acquisition means and segmentation data indicating a time difference from the start time to the end time of the phoneme.
A machine using a plurality of judgment learning data in which input data including reference phonetic element data and reference segmentation data acquired in advance and output data including semantic data indicating the meaning of a word are set as a set of data. A database that stores the judgment model generated by training, and
A semantic determination system comprising a determination means for determining semantic data for the phoneme data and the segmentation data with reference to the determination model.
JP2022025781A 2022-02-22 2022-02-22 Meaning judgment program and meaning judgment system Active JP7055529B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022025781A JP7055529B1 (en) 2022-02-22 2022-02-22 Meaning judgment program and meaning judgment system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022025781A JP7055529B1 (en) 2022-02-22 2022-02-22 Meaning judgment program and meaning judgment system

Publications (2)

Publication Number Publication Date
JP7055529B1 true JP7055529B1 (en) 2022-04-18
JP2023122209A JP2023122209A (en) 2023-09-01

Family

ID=81289285

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022025781A Active JP7055529B1 (en) 2022-02-22 2022-02-22 Meaning judgment program and meaning judgment system

Country Status (1)

Country Link
JP (1) JP7055529B1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01126694A (en) * 1987-11-11 1989-05-18 Fujitsu Ltd Phoneme sign adding system for voice recognition equipment
JP2021033048A (en) * 2019-08-23 2021-03-01 サウンドハウンド,インコーポレイテッド On-vehicle device, and method and program for processing utterance

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01126694A (en) * 1987-11-11 1989-05-18 Fujitsu Ltd Phoneme sign adding system for voice recognition equipment
JP2021033048A (en) * 2019-08-23 2021-03-01 サウンドハウンド,インコーポレイテッド On-vehicle device, and method and program for processing utterance

Also Published As

Publication number Publication date
JP2023122209A (en) 2023-09-01

Similar Documents

Publication Publication Date Title
US11837216B2 (en) Speech recognition using unspoken text and speech synthesis
RU2632424C2 (en) Method and server for speech synthesis in text
WO2017067206A1 (en) Training method for multiple personalized acoustic models, and voice synthesis method and device
JP6238312B2 (en) Audio HIP based on text speech and meaning
EP2943950B1 (en) Distributed speech unit inventory for tts systems
US20220180872A1 (en) Electronic apparatus and method for controlling thereof
CN115485766A (en) Speech synthesis prosody using BERT models
US11810471B2 (en) Computer implemented method and apparatus for recognition of speech patterns and feedback
CN112397056B (en) Voice evaluation method and computer storage medium
US10685644B2 (en) Method and system for text-to-speech synthesis
JP2020034883A (en) Voice synthesizer and program
JP2024505076A (en) Generate diverse, natural-looking text-to-speech samples
CN112017690B (en) Audio processing method, device, equipment and medium
Jaddoh et al. Interaction between people with dysarthria and speech recognition systems: A review
TW201225064A (en) Method and system for text to speech conversion
Smith et al. Automating error frequency analysis via the phonemic edit distance ratio
Reddy et al. Speech-to-Text and Text-to-Speech Recognition Using Deep Learning
EP4014228B1 (en) Speech synthesis method and apparatus
CN113963679A (en) Voice style migration method and device, electronic equipment and storage medium
Mukherjee et al. A Bengali speech synthesizer on Android OS
JP7055529B1 (en) Meaning judgment program and meaning judgment system
KR102484006B1 (en) Voice self-practice method for voice disorders and user device for voice therapy
JP6289950B2 (en) Reading apparatus, reading method and program
JP6993034B1 (en) Content playback method and content playback system
Panda et al. A Context-based Numeral Reading Technique for Text to Speech Systems.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220222

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220330

R150 Certificate of patent or registration of utility model

Ref document number: 7055529

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350