JP4859125B2 - Pronunciation rating device and program - Google Patents

Pronunciation rating device and program Download PDF

Info

Publication number
JP4859125B2
JP4859125B2 JP2007027903A JP2007027903A JP4859125B2 JP 4859125 B2 JP4859125 B2 JP 4859125B2 JP 2007027903 A JP2007027903 A JP 2007027903A JP 2007027903 A JP2007027903 A JP 2007027903A JP 4859125 B2 JP4859125 B2 JP 4859125B2
Authority
JP
Japan
Prior art keywords
phoneme
feature vector
rating
sequence
acquisition unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007027903A
Other languages
Japanese (ja)
Other versions
JP2008191551A (en
Inventor
博章 田川
隆弘 足立
秀行 渡辺
理恵子 久保
亮 駒木
裕子 生馬
玲子 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2007027903A priority Critical patent/JP4859125B2/en
Publication of JP2008191551A publication Critical patent/JP2008191551A/en
Application granted granted Critical
Publication of JP4859125B2 publication Critical patent/JP4859125B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To solve the following problem: evaluation accuracy by phoneme units is not sufficient. <P>SOLUTION: A pronunciation evaluating apparatus obtains a feature vector series from a teacher data and one or more frame voice data, compares the feature vector series with an acoustic model according to a phoneme series to be evaluated, obtains an optimal state series which is a set of an optimal state for each frame, identifies one or more optimal phoneme series in which the same phoneme continues among the optimal state series, obtains one or more optimal phoneme portion series which are groups of the one or more optimal phoneme series, obtains one or more feature vector portion series which are groups of one or more feature vectors corresponding to each optimal phoneme portion series. obtains a posterior probability at which the feature vector series is a phoneme to be evaluated, and calculates an evaluation value from the posterior probability. The evaluation by phoneme units is highly accurately performed by the pronunciation evaluating apparatus. <P>COPYRIGHT: (C)2008,JPO&amp;INPIT

Description

本発明は、入力された音声を評価する装置等に関し、特に、語学学習等に利用できる発音評定装置等に関するものである。   The present invention relates to an apparatus for evaluating input speech, and more particularly to a pronunciation rating apparatus that can be used for language learning and the like.

従来、比較される対象の音声に関するデータであり、音韻毎の隠れマルコフモデル(HMM)に基づくデータである教師データを1以上格納しており、音声入力を受け付ける音声受付部と、前記受け付けた音声を、フレームに区分するフレーム区分部と、前記区分されたフレーム毎の音声データであるフレーム音声データを1以上得るフレーム音声データ取得部と、前記教師データと前記1以上のフレーム音声データに基づいて、前記音声受付部が受け付けた音声の評定を行う評定部と、前記評定部の評定結果を出力する出力部を具備する発音評定装置があった(例えば、特許文献1参照)。上記の発音評定装置において、例えば、p−DAPと呼ばれるアルゴリズムを用いて発音評定を行なっていた。p−DAPは、各フレームにおける、すべての音韻の中で最適な音韻の事後確率(確率値)を表すように評定値を算出する。
特開2006−227587号公報(第1頁、第1図等)
Conventionally, one or more teacher data, which is data related to the speech to be compared and is based on a hidden Markov model (HMM) for each phoneme, is stored, and a speech reception unit that receives speech input, and the received speech Are divided into frames, a frame audio data acquisition unit that obtains one or more frame audio data that is audio data for each of the divided frames, the teacher data, and the one or more frame audio data There has been a pronunciation rating device including a rating unit that evaluates a voice received by the voice receiving unit, and an output unit that outputs a rating result of the rating unit (for example, see Patent Document 1). In the above-described pronunciation rating device, for example, pronunciation rating is performed using an algorithm called p-DAP. The p-DAP calculates a rating value so as to represent an optimal posterior probability (probability value) of phonemes among all phonemes in each frame.
JP 2006-227587 A (first page, FIG. 1 etc.)

しかしながら、従来の発音評定装置においては、フレームの属する音素区間以外の音声データの情報も評定点に混入していた。そのために、音素単位の評定精度が十分である、とは言えなかった。   However, in the conventional pronunciation rating device, information of speech data other than the phoneme section to which the frame belongs is also mixed in the rating score. Therefore, it cannot be said that the evaluation accuracy of phoneme units is sufficient.

本第一の発明の発音評定装置は、1以上の音素毎の音響モデルである教師データを1以上格納している教師データ格納部と、評定対象の1以上音素の並びのであり、同一の音素が連続する1以上の最適音素系列の集合である最適音素部分系列を1組以上格納している最適音素部分系列格納部と、音声の入力を受け付ける音声受付部と、前記音声受付部が受け付けた音声を、フレームに区分し、区分されたフレーム毎の音声データであるフレーム音声データを1以上得るフレーム音声データ取得部と、前記1以上のフレーム音声データから、フレーム毎の特徴ベクトルの集合である特徴ベクトル系列を取得する特徴ベクトル系列取得部と、前記特徴ベクトル系列取得部が取得した特徴ベクトル系列から、前記最適音素部分系列格納部の各最適音素部分系列に対応する1以上の特徴ベクトルの組である特徴ベクトル部分系列を1組以上取得する特徴ベクトル部分系列取得部と、前記教師データ格納部から教師データを読み出し、当該教師データを用いて、前記特徴ベクトル部分系列取得部が取得した特徴ベクトル部分系列が評定対象の音素である事後確率を算出し、当該事後確率から音声の評定値を算出する評定値算出部と、前記評定値算出部が算出した評定値を出力する出力部を具備する発音評定装置である。   The pronunciation rating device according to the first aspect of the present invention includes a teacher data storage unit storing at least one teacher data, which is an acoustic model for each of one or more phonemes, and an array of one or more phonemes to be evaluated. Is an optimal phoneme subsequence storage unit that stores one or more sets of optimal phoneme subsequences that are sets of one or more optimal phoneme sequences that are continuous, a voice reception unit that receives voice input, and the voice reception unit The voice is divided into frames, a frame voice data acquisition unit that obtains one or more frame voice data that is voice data for each divided frame, and a set of feature vectors for each frame from the one or more frame voice data. A feature vector sequence acquisition unit that acquires a feature vector sequence, and each optimal phoneme portion of the optimal phoneme subsequence storage unit from the feature vector sequence acquired by the feature vector sequence acquisition unit A feature vector partial sequence acquisition unit that acquires one or more feature vector partial sequences that are a set of one or more feature vectors corresponding to a sequence, and teacher data is read from the teacher data storage unit, and the teacher data is used to The feature vector partial sequence acquisition unit calculates a posterior probability that the feature vector partial sequence is a phoneme to be evaluated, and calculates a speech evaluation value from the posterior probability, and the evaluation value calculation unit calculates This is a pronunciation rating device having an output unit for outputting the rated value.

かかる構成により、音素単位の評定を高い精度で行うことができる。   With this configuration, the phoneme unit can be evaluated with high accuracy.

また、本第二の発明の発音評定装置は、第一の発明に対して、評定対象の1以上音素の並びの情報である評定対象音素系列を格納している評定対象音素系列格納部と、前記評定対象音素系列に沿った音響モデルを前記教師データ格納部から読み出し、当該音響モデルと、前記特徴ベクトル系列取得部が取得した特徴ベクトル系列であり、前記音響モデルに対応する特徴ベクトル系列とを比較し、フレーム毎の最適状態の集合である最適状態系列を取得する最適状態系列取得部と、前記最適状態系列取得部が取得した最適状態系列の中で、同一の音素が連続する1以上の最適音素系列を識別し、当該1以上の最適音素系列の組である最適音素部分系列を1組以上取得する最適音素部分系列取得部をさらに具備し、前記特徴ベクトル部分系列取得部は、前記特徴ベクトル系列取得部が取得した特徴ベクトル系列から、前記最適音素部分系列取得部が取得した各最適音素部分系列に対応する1以上の特徴ベクトルの組である特徴ベクトル部分系列を1組以上取得する発音評定装置である。   In addition, the pronunciation rating device according to the second aspect of the present invention, in contrast to the first aspect, is a rating target phoneme sequence storage unit that stores a rating target phoneme sequence that is information on an arrangement of one or more phonemes to be rated; An acoustic model along the evaluation target phoneme sequence is read from the teacher data storage unit, and the acoustic model is a feature vector sequence acquired by the feature vector sequence acquisition unit, and a feature vector sequence corresponding to the acoustic model. The optimal state sequence acquisition unit that acquires an optimal state sequence that is a set of optimal states for each frame and one or more consecutive continuous phonemes in the optimal state sequence acquired by the optimal state sequence acquisition unit An optimal phoneme subsequence acquisition unit that identifies an optimal phoneme sequence and acquires one or more optimal phoneme subsequences that are a set of the one or more optimal phoneme sequences; Is a feature vector partial sequence that is a set of one or more feature vectors corresponding to each optimum phoneme partial sequence acquired by the optimal phoneme partial sequence acquisition unit from the feature vector sequence acquired by the feature vector sequence acquisition unit. This is the pronunciation rating device to be acquired.

かかる構成により、音素単位の評定を高い精度で行うことができる。また、予め1組以上の最適音素部分系列を用意しておく必要がない。   With this configuration, the phoneme unit can be evaluated with high accuracy. Moreover, it is not necessary to prepare one or more sets of optimal phoneme subsequences in advance.

また、本第三の発明の発音評定装置は、第一、第二いずれかの発明に対して、前記評定値算出部は、全ての音響モデルである教師データが与えられたという条件のもと、音素区間音声データの時刻ごとに、当該音素区間音声データが、評定対象の正解となる音素に対応した音響モデルの持つ状態である事後確率を算出し、当該事後確率から音素の評定値を算出する発音評定装置である。   Also, the pronunciation rating device of the third aspect of the invention is based on the condition that the rating value calculation unit is provided with teacher data that is all acoustic models for either the first or second aspect of the invention. For each time of phoneme segment speech data, calculate the posterior probability that the phoneme segment speech data is in the state of the acoustic model corresponding to the correct phoneme to be rated, and calculate the phoneme rating value from the posterior probability It is a pronunciation rating device.

かかる構成により、音素単位の評定を高い精度で行うことができる。   With this configuration, the phoneme unit can be evaluated with high accuracy.

また、本第四の発明の発音評定装置は、第一記載、第二いずれかの発明に対して、前記評定値算出部は、音素区間音声データの時刻ごとに、音素区間音声データが評定対象の正解となる音素である事後確率を算出し、当該事後確率から音素の評定値を算出する発音評定装置である。   Further, the pronunciation rating device according to the fourth aspect of the present invention is the first or second aspect of the invention, wherein the rating value calculation unit evaluates the phoneme segment speech data for each time of the phoneme segment speech data. Is a pronunciation rating device that calculates a posterior probability that is a phoneme that is a correct answer and calculates a rating value of the phoneme from the posterior probability.

かかる構成により、高速に音素単位の評定をより高い精度で行うことができる。   With this configuration, the phoneme unit can be evaluated with higher accuracy at high speed.

また、本第五の発明の発音評定装置は、第一、第二いずれかの発明に対して、前記評定値算出部は、音素区間音声データが評定対象の正解となる音素である事後確率を算出し、当該事後確率から音素の評定値を算出する発音評定装置である。   Also, in the pronunciation rating device of the fifth invention, the rating value calculation unit, with respect to any one of the first and second inventions, has a posterior probability that the phoneme segment speech data is a phoneme that is a correct answer to be rated. It is a pronunciation rating device that calculates and calculates a phoneme rating value from the posterior probability.

かかる構成により、より高速に音素単位の評定を高い精度で行うことができる。   With this configuration, the phoneme unit can be evaluated with higher accuracy at a higher speed.

また、本第六の発明の発音評定装置は、第五の発明に対して、前記評定値算出部は、前記同時生起確率値を、バックワードアルゴリズムを用いずにフォワードアルゴリズムにより取得する発音評定装置である。   In addition, the pronunciation rating device according to the sixth aspect of the invention is the pronunciation rating device according to the fifth aspect, wherein the rating value calculation unit acquires the co-occurrence probability value by a forward algorithm without using a backward algorithm. It is.

かかる構成により、高速に音素単位の評定をより高い精度で行うことができる。   With this configuration, the phoneme unit can be evaluated with higher accuracy at high speed.

また、本第七の発明の発音評定装置は、第一から第六いずれかの発明に対して、前記評定値算出部は、フレーム毎または音素毎の前記評定値を基にして、文章や単語の評定値を算出する発音評定装置である。   Further, the pronunciation rating device of the seventh aspect of the present invention is the first to sixth aspects of the invention, wherein the rating value calculator is a sentence or word based on the rating value for each frame or phoneme. This is a pronunciation rating device that calculates the rating value.

かかる構成により、文章や単語の評定値を算出できる。   With this configuration, the rating value of a sentence or word can be calculated.

また、本第八の発明の発音評定装置は、第七の発明に対して、各音素の時間に関する情報である音素時間情報を取得する音素時間情報取得部をさらに具備し、前記評定値算出部は、音素時間長を重みとした音素の評定値の加重平均から文章または単語の評定値を算出する発音評定装置である。   The pronunciation rating device of the eighth aspect of the invention further comprises a phoneme time information acquisition unit that acquires phoneme time information, which is information related to the time of each phoneme, with respect to the seventh aspect of the invention, and the rating value calculation unit Is a pronunciation rating device that calculates a rating value of a sentence or a word from a weighted average of phoneme rating values weighted by phoneme time length.

かかる構成により、文章や単語の評定値を精度高く算出できる。   With this configuration, it is possible to calculate sentence and word rating values with high accuracy.

本発明による発音評定装置によれば、音素単位の評定を高い精度で行うことができる。   According to the pronunciation rating device according to the present invention, the phoneme unit can be evaluated with high accuracy.

以下、発音評定装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
Hereinafter, embodiments of a pronunciation rating device and the like will be described with reference to the drawings. In addition, since the component which attached | subjected the same code | symbol in embodiment performs the same operation | movement, description may be abbreviate | omitted again.
(Embodiment 1)

本実施の形態において、最適状態系列から求めることができる音素区間ごとに評定点を算出するアルゴリズムにより発音評定を行う発音評定装置について説明する。このアルゴリズムは、音素区間ごとに動的事後確率を算出するということと、後に解説するアルゴリズムとの区別のために修飾子を付けて、PDAPS-PE(Phoneme Ergodic Phoneme unit Dynamic A posteriori Probability based pronunciation Scoring/音韻エルゴディック音韻単位動的事後確率に基づく発音評定)と呼ぶ。   In the present embodiment, a pronunciation evaluation apparatus that performs pronunciation evaluation using an algorithm that calculates a rating point for each phoneme section that can be obtained from the optimum state series will be described. This algorithm calculates a dynamic posterior probability for each phoneme section and adds a qualifier to distinguish it from the algorithm described later, PDAPS-PE (Phoneme Ergodic Phoneme unit Dynamic A posteriori Probability based pronunciation Scoring / Phonetic ergodic phonetic unit pronunciation evaluation based on dynamic posterior probability).

PDAPS-PEアルゴリズムは、評定値の算出に用いる音声データを音素区間に限定し、その音素区間以外の情報を排除したアルゴリズムである。   The PDAPS-PE algorithm is an algorithm in which speech data used for calculating a rating value is limited to a phoneme section and information other than the phoneme section is excluded.

図1は、本実施の形態における発音評定装置のブロック図である。本発音評定装置は、入力受付部101、教師データ格納部102、評定対象音素系列格納部103、音声受付部104、フレーム音声データ取得部105、特徴ベクトル系列取得部106、最適状態系列取得部107、最適音素部分系列取得部108、特徴ベクトル部分系列取得部109、評定値算出部110、出力部111を具備する。   FIG. 1 is a block diagram of a pronunciation rating device in the present embodiment. The pronunciation evaluation apparatus includes an input reception unit 101, a teacher data storage unit 102, a rating target phoneme sequence storage unit 103, a speech reception unit 104, a frame audio data acquisition unit 105, a feature vector sequence acquisition unit 106, and an optimum state sequence acquisition unit 107. , An optimal phoneme partial sequence acquisition unit 108, a feature vector partial sequence acquisition unit 109, a rating value calculation unit 110, and an output unit 111.

入力受付部101は、発音評定装置の動作開始を指示する動作開始指示や、処理を終了する終了指示などの入力を受け付ける。かかる指示等の入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。入力受付部101は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。   The input receiving unit 101 receives inputs such as an operation start instruction for instructing an operation start of the pronunciation rating device and an end instruction for ending the process. The input means for such an instruction may be anything such as a numeric keypad, keyboard, mouse or menu screen. The input receiving unit 101 can be realized by a device driver for input means such as a numeric keypad and a keyboard, control software for a menu screen, and the like.

教師データ格納部102は、1以上の音素毎の音響モデル(以下、適宜、音響モデルパラメータ、とも言う。)である教師データを1以上格納している。教師データは、隠れマルコフモデル(HMM)に基づくデータであることは好適である。さらに、本実施の形態における発音評定装置(PDAPS-PEアルゴリズムで利用する場合)では、教師データは、HMMであり、一の音素HMMの終端状態から、当該一の音素または他のすべての音素の始端状態へ連結された音響モデルであることは好適である。つまり、実施の形態2以降の発音評定装置(PDAPS、PAPPS、PAPPS-FNのアルゴリズムで利用する場合)では、教師データは、一の音素HMMの終端状態から、当該一の音素または他のすべての音素の始端状態へ連結された音響モデルではない。   The teacher data storage unit 102 stores one or more teacher data that are acoustic models for one or more phonemes (hereinafter also referred to as acoustic model parameters as appropriate). The teacher data is preferably data based on a hidden Markov model (HMM). Furthermore, in the pronunciation rating device (when used in the PDAPS-PE algorithm) in the present embodiment, the teacher data is an HMM, and from the terminal state of one phoneme HMM, the one phoneme or all other phonemes. It is preferable that the acoustic model is connected to the starting end state. In other words, in the pronunciation evaluation apparatus after the second embodiment (when used in the PDAPS, PAPPS, and PAPPS-FN algorithms), the teacher data is transmitted from the terminal state of one phoneme HMM to one phoneme or all other phonemes. It is not an acoustic model connected to the starting state of phonemes.

なお、教師データは、必ずしも、音韻毎のHMMを連結したHMMに基づくデータである必要はない。教師データは、全音素のHMMの、単なる集合であっても良い。また、教師データは、必ずしもHMMに基づくデータである必要はない。教師データは、単一ガウス分布モデルや、確率モデル(GMM:ガウシャンミクスチャモデル)や、統計モデルなど、他のモデルに基づくデータでも良い。なお、音響モデルは、例えば、音響を識別するIDと音響を特徴付ける特徴ベクトルの組である。教師データ格納部102は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。   The teacher data does not necessarily need to be data based on the HMM in which the HMMs for each phoneme are connected. The teacher data may be a simple set of all phoneme HMMs. The teacher data does not necessarily need to be data based on the HMM. The teacher data may be data based on other models such as a single Gaussian distribution model, a probability model (GMM: Gaussian mixture model), and a statistical model. Note that the acoustic model is, for example, a set of an ID for identifying a sound and a feature vector that characterizes the sound. The teacher data storage unit 102 is preferably a non-volatile recording medium, but can also be realized by a volatile recording medium.

評定対象音素系列格納部103は、評定対象の1以上音素の並びの情報である評定対象音素系列を格納している。評定対象音素系列は、ユーザが、本来、発音しなければならない単語や文章(正解の単語や文章)などの音素列を示す情報である。音素の情報は、例えば、音素のIDや音素を示す文字コードなどである。1以上音素の並びの情報とは、例えば、[a,o,i]などの音素の文字コード列や、[1,5,2]などの音素のID列などである。また、評定対象音素系列格納部103の評定対象音素系列は、入力受付部101が受け付けた情報でも良いし、予め格納されていても良い。評定対象音素系列格納部103は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。   The rating target phoneme sequence storage unit 103 stores a rating target phoneme sequence, which is information on the arrangement of one or more phonemes to be rated. The rating-target phoneme series is information indicating a phoneme string such as a word or sentence (correct word or sentence) that the user must originally pronounce. The phoneme information is, for example, a phoneme ID or a character code indicating the phoneme. The information on the arrangement of one or more phonemes is, for example, a phoneme character code string such as [a, o, i] or a phoneme ID string such as [1, 5, 2]. Further, the rating target phoneme sequence in the rating target phoneme sequence storage unit 103 may be information received by the input receiving unit 101 or may be stored in advance. The evaluation target phoneme sequence storage unit 103 is preferably a non-volatile recording medium, but can also be realized by a volatile recording medium.

音声受付部104は、評定対象の音声の入力を受け付ける。ここで受け付けとは、通常、マイクからの受け付けであるが、記録媒体に格納された音声を読み込む処理、外部装置からの受信処理等でも良い。音声受付部104は、例えば、マイクのドライバーソフトで実現され得る。また、なお、音声受付部104は、マイクとそのドライバーから実現されると考えても良い。音声は、マイクから入力されても良いし、磁気テープやCD−ROMなどの記録媒体から読み出すことにより入力されても良い。   The voice receiving unit 104 receives an input of voice to be rated. Here, “acceptance” is usually acceptance from a microphone, but it may be processing for reading audio stored in a recording medium, reception processing from an external device, or the like. The voice reception unit 104 can be realized by, for example, microphone driver software. In addition, it may be considered that the voice reception unit 104 is realized by a microphone and its driver. The sound may be input from a microphone or may be input by reading from a recording medium such as a magnetic tape or a CD-ROM.

フレーム音声データ取得部105は、音声受付部104が受け付けた音声を、フレームに区分し、区分されたフレーム毎の音声データであるフレーム音声データを1以上得て、当該1以上のフレーム音声データをメモリ上に配置する。フレーム音声データ取得部105は、公知技術により実現され得る。フレーム音声データ取得部105は、通常、MPUやメモリ等から実現され得る。フレーム音声データ取得部105の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。   The frame audio data acquisition unit 105 divides the audio received by the audio reception unit 104 into frames, obtains one or more frame audio data that are audio data for each of the divided frames, and obtains the one or more frame audio data. Place on memory. The frame audio data acquisition unit 105 can be realized by a known technique. The frame audio data acquisition unit 105 can be usually realized by an MPU, a memory, or the like. The processing procedure of the frame audio data acquisition unit 105 is usually realized by software, and the software is recorded on a recording medium such as a ROM. However, it may be realized by hardware (dedicated circuit).

特徴ベクトル系列取得部106は、フレーム音声データ取得部105が取得した1以上のフレーム音声データから、フレーム毎の特徴ベクトルの集合である特徴ベクトル系列「O=o,o,・・・,o」を取得する。特徴ベクトル系列取得部106は、フレーム音声データを、スペクトル分析することにより、特徴ベクトル(o)を取得する。また、特徴ベクトルは、例えば、三角型フィルタを用いたチャネル数24のフィルタバンク出力を離散コサイン変換したMFCCであり、その静的パラメータ、デルタパラメータおよびデルタデルタパラメータをそれぞれ12次元、さらに正規化されたパワーとデルタパワーおよびデルタデルタパワー(39次元)を有する。また、スペクトル分析において、ケプストラム平均除去を施すことは好適である。ただし、音声分析条件が、他の条件でも良いことは言うまでもない。なお、特徴ベクトル系列取得部106は、公知技術により実現され得る。特徴ベクトル系列取得部106は、通常、MPUやメモリ等から実現され得る。特徴ベクトル系列取得部106の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。 The feature vector sequence acquisition unit 106 uses a feature vector sequence “O = o 1 , o 2 ,..., Which is a set of feature vectors for each frame, from one or more frame audio data acquired by the frame audio data acquisition unit 105. to get the o T ". The feature vector series obtaining unit 106 obtains a feature vector (o t ) by performing spectrum analysis on the frame audio data. The feature vector is, for example, an MFCC obtained by performing discrete cosine transform on a filter bank output of 24 channels using a triangular filter, and the static parameter, the delta parameter, and the delta delta parameter are further normalized to 12 dimensions, respectively. Power and delta power and delta delta power (39th dimension). In spectral analysis, it is preferable to perform cepstrum average removal. However, it goes without saying that the voice analysis conditions may be other conditions. Note that the feature vector series acquisition unit 106 can be realized by a known technique. The feature vector series acquisition unit 106 can usually be realized by an MPU, a memory, or the like. The processing procedure of the feature vector sequence acquisition unit 106 is usually realized by software, and the software is recorded on a recording medium such as a ROM. However, it may be realized by hardware (dedicated circuit).

最適状態系列取得部107は、評定対象音素系列格納部103から評定対象音素系列を読み出し、当該読み出した評定対象音素系列に沿った音響モデルを、教師データ格納部102から読み出し、メモリ上に配置する。そして、最適状態系列取得部107は、当該読み出した音響モデルと、特徴ベクトル系列取得部106が取得した特徴ベクトル系列(O=o,o,・・o・・,o)であり、音響モデルに対応する特徴ベクトル系列とを比較し、フレーム毎の最適状態(特徴ベクトルoに対する最適状態)の集合である最適状態系列(q ,q ,・・q ・・,q )を取得する。最適状態系列取得部107は、取得した特徴ベクトル系列を構成する各特徴ベクトルoに基づいて、所定のフレームの最適状態(特徴ベクトルoに対する最適状態)を決定する。最適状態系列取得部107が最適状態を決定するアルゴリズムは、例えば、Viterbiアルゴリズムによる。かかる場合、最適状態系列取得部107は、通常、上記で評定対象の音素系列に沿って連結した音響モデル(ここでは、HMM)を用いて最適状態を決定する。最適状態系列取得部107は、2以上のフレームの最適状態である最適状態系列を求めることとなる。最適状態系列取得部107は、通常、MPUやメモリ等から実現され得る。最適状態系列取得部107の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。 The optimum state sequence acquisition unit 107 reads the rating target phoneme sequence from the rating target phoneme sequence storage unit 103, reads the acoustic model along the read rating target phoneme sequence from the teacher data storage unit 102, and arranges it on the memory. . Then, the optimal state sequence acquisition section 107, an acoustic model reading the feature vector series feature vector series acquisition unit 106 has acquired (O = o 1, o 2 , ·· o t ··, o T) be compares the sequence of feature vectors corresponding to acoustic models, the optimal state sequence is a set of optimal conditions for each frame (optimum condition for the feature vector o t) (q * 1, q * 2, ·· q * t ·・, Q * T ) is acquired. Optimal state sequence acquisition section 107, based on each feature vector o t constituting the obtained feature vector series, to determine the optimal conditions for a given frame (optimum condition for the feature vector o t). The algorithm by which the optimum state sequence acquisition unit 107 determines the optimum state is, for example, the Viterbi algorithm. In such a case, the optimum state sequence acquisition unit 107 usually determines the optimum state using the acoustic model (here, HMM) connected along the phoneme sequence to be evaluated as described above. The optimum state sequence acquisition unit 107 obtains an optimum state sequence that is the optimum state of two or more frames. The optimum state sequence acquisition unit 107 can be usually realized by an MPU, a memory, or the like. The processing procedure of the optimum state sequence acquisition unit 107 is usually realized by software, and the software is recorded on a recording medium such as a ROM. However, it may be realized by hardware (dedicated circuit).

最適音素部分系列取得部108は、最適状態系列取得部107が取得した最適状態系列(q ,q ,・・q ・・,q )の中で、同一の音素が連続する1以上の最適音素系列を識別し、当該1以上の最適音素系列の集合である最適音素部分系列を1組以上取得する。つまり、最適状態(q )の属する音響モデルを(p )とすると、最適音素部分系列取得部108は、最適状態系列(q ,q ,・・q ・・,q )中の各最適状態に対応する音響モデルを、教師データ格納部102から読み出し、最適音素系列(p ,p ,・・p ・・,p )を取得する。そして、最適音素部分系列取得部108は、最適音素系列(p ,p ,・・p ・・,p )の中で同じ音素が連続した部分を検出し、音素系列の部分系列({p ,p ,・・}(1)・・・・{・・・,p ・・,p T(n)(n)・・・{・・・,p (s)}を得る。なお、音素(p )は、例えば、音素を識別するIDや音素を示す文字のコードなどである。また、{・・・,p ・・,p T(n)(n)が、最適音素部分系列の一つである。最適音素部分系列取得部108は、通常、MPUやメモリ等から実現され得る。最適音素部分系列取得部108の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。 The optimal phoneme subsequence acquisition unit 108 selects the same phoneme among the optimal state sequences (q * 1 , q * 2 ,... Q * t. , Q * T ) acquired by the optimal state sequence acquisition unit 107. One or more continuous optimal phoneme sequences are identified, and one or more optimal phoneme subsequences, which are a set of the one or more optimal phoneme sequences, are acquired. That is, when an acoustic model belongs optimum state (q * t) and (p * t), the optimum phoneme partial sequence acquisition section 108, the optimal state sequence (q * 1, q * 2 , ·· q * t ·· , Q * T ), the acoustic model corresponding to each optimum state is read from the teacher data storage unit 102 and the optimum phoneme sequence (p * 1 , p * 2 ,... P * t. , P * T ) is read. get. Then, the optimum phoneme subsequence acquisition unit 108 detects a portion in which the same phonemes are continuous in the optimum phoneme sequence (p * 1 , p * 2 ,... P * t. , P * T ), and the phoneme sequence. ({P * 1 , p * 2 ,...} (1) ... {..., P * t .., p * T (n) } (n). · to obtain p * T} (s)} . Note that the phoneme (p * t) is, for example, a character code indicating the ID and phonemic identifying phonemes. Further, {· · ·, p * t ··, p * T (n) } (n) is one of the optimum phoneme subsequences, and the optimum phoneme subsequence acquisition unit 108 can be usually realized by an MPU, a memory, etc. Optimal phoneme subsequences The processing procedure of the acquisition unit 108 is usually realized by software, and the software is recorded in a recording medium such as a ROM. , It may be realized by hardware (dedicated circuit).

特徴ベクトル部分系列取得部109は、特徴ベクトル系列取得部106が取得した特徴ベクトル系列から、最適音素部分系列取得部108が取得した各最適音素部分系列に対応する1以上の特徴ベクトルの組である特徴ベクトル部分系列({o ,o ,・・}(1)・・・・{・・・,o ・・,o T(n)(n)・・・{・・・,o (s)}を1組以上取得する。なお、この特徴ベクトル部分系列が評定対象の音素区間音声データであり、それに対応した最適音素部分系列の代表音素が評定対象の(正解の)音素となる。特徴ベクトル部分系列取得部109は、通常、MPUやメモリ等から実現され得る。特徴ベクトル部分系列取得部109の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。 The feature vector subsequence acquisition unit 109 is a set of one or more feature vectors corresponding to each optimum phoneme subsequence acquired by the optimal phoneme subsequence acquisition unit 108 from the feature vector sequence acquired by the feature vector sequence acquisition unit 106. Feature vector subsequence ({o * 1 , o * 2 ,...} (1) ... {..., o * t. , O * T (n) } (n). .., O * T } (s) } is acquired, wherein the feature vector subsequence is the phoneme segment speech data to be evaluated, and the representative phoneme of the optimal phoneme subsequence corresponding to it is the target of the evaluation The feature vector subsequence acquisition unit 109 can be usually realized by an MPU, a memory, etc. The processing procedure of the feature vector subsequence acquisition unit 109 is usually realized by software, and the software It is recorded on a recording medium such as a ROM. However, it may be realized by hardware (dedicated circuit).

評定値算出部110は、音素の評定値を音素区間データから算出する。評定値算出部110は、音素の評定値を算出する場合に、入力された音声データをすべて用いるようなことはしない。つまり、評定値算出部110は、全ての音響モデルである教師データが与えられたという条件のもと、音素区間音声データの時刻ごとに、当該音素区間音声データが、評定対象の正解となる音素に対応した音響モデルの持つ状態である事後確率を算出し、当該事後確率から音素の評定値を算出する。なお、評定対象の状態は、正解となる音素に対応した音響モデルが有するものである。具体的には、評定値算出部110は、例えば、以下の数式1、数式2により、音声の評定値(PDAPS−PE(t))を算出する。つまり、評定値算出部110は、最適音素部分系列取得部108が取得した最適音素部分系列と、その部分系列に対応する特徴ベクトル部分系列取得部109が取得した特徴ベクトル部分系列「O(n)」と、教師データ格納部102から読み出した全ての音響モデルを用いて、最適音素部分系列の時刻ごとの最適音素「P 」ごとに、特徴ベクトル部分系列の時刻(フレーム)「t」における状態が「j」である事後確率を最適音素「P 」に含まれる全ての状態において取得し、その事後確率の総和を取得することで、音声の評定値(PDAPS−PE(t))を算出する。さらに詳細には、評定値算出部110は、最適音素部分系列取得部108が取得した最適音素部分系列と、その部分系列に対応する特徴ベクトル部分系列取得部109が取得した特徴ベクトル部分系列「O(n)」と、教師データ格納部102から読み出した全ての音響モデルを用いて、最適音素部分系列の時刻ごとの最適音素「P 」ごとに、全ての音響モデルの全状態において、全ての音響モデルパラメータ「λall」が与えられたという条件のもと、特徴ベクトル系列「O(n)」が観測され、かつそのベクトル系列の時刻(フレーム)「t」における状態が「j」である確率を取得し、その取得した状態ごとの確率値から、全ての音響モデルパラメータ「λall」と特徴ベクトル系列「O(n)」が与えられたときに、そのベクトル系列の時刻(フレーム)「t」における状態が「j」である事後確率を最適音素「P 」に含まれる全ての状態において取得し、その事後確率の総和を取得することで、音声の評定値(PDAPS−PE(t))を算出する。

Figure 0004859125
Figure 0004859125
The rating value calculation unit 110 calculates a phoneme rating value from phoneme interval data. The rating value calculation unit 110 does not use all input speech data when calculating the phoneme rating value. In other words, the rating value calculation unit 110, under the condition that teacher data that is all acoustic models is given, for each time of the phoneme segment speech data, the phoneme segment speech data becomes a phoneme that is the correct answer to be evaluated. The posterior probability that is the state of the acoustic model corresponding to is calculated, and the phoneme rating value is calculated from the posterior probability. It should be noted that the state to be rated is the one that the acoustic model corresponding to the correct phoneme has. Specifically, the rating value calculation unit 110 calculates a voice rating value (PDPS-PE (t)) by the following formulas 1 and 2, for example. That is, the rating value calculation unit 110 obtains the optimal phoneme partial sequence acquired by the optimal phoneme partial sequence acquisition unit 108 and the feature vector partial sequence “O (n) acquired by the feature vector partial sequence acquisition unit 109 corresponding to the partial sequence. ”And all the acoustic models read out from the teacher data storage unit 102, for each optimum phoneme“ P t * ”for each time of the optimum phoneme subsequence, at the time (frame)“ t ”of the feature vector subsequence. The posterior probability with the state “j” is obtained in all states included in the optimal phoneme “P t * ”, and the sum of the posterior probabilities is obtained, so that the speech rating value (PNAPS-PE (t)) Is calculated. More specifically, the rating value calculation unit 110 includes the optimal phoneme partial sequence acquired by the optimal phoneme partial sequence acquisition unit 108 and the feature vector partial sequence “O” acquired by the feature vector partial sequence acquisition unit 109 corresponding to the partial sequence. (N) ”and all the acoustic models read out from the teacher data storage unit 102, and for each optimal phoneme“ P t * ”for each time of the optimal phoneme subsequence, The feature vector series “O (n) ” is observed under the condition that the acoustic model parameter “λ all ” is given, and the state of the vector series at time (frame) “t” is “j”. It acquires a certain probability, the probability value for each the acquired state, when all the acoustic model parameters "lambda all" and the feature vector series "O (n)" is given Obtained in all states the state at that time of vector sequence (frame) "t" is included in the optimal a posteriori probability of the "j" phoneme "P t *", by obtaining the sum of the posterior probabilities, The voice rating value (PDAPS-PE (t)) is calculated.
Figure 0004859125
Figure 0004859125

なお、数式1において、「λall」は全ての音響モデル(教師データ)のパラメータであり、「N」は教師データ全体の総状態数である。また、数式2は、公知のアルゴリズムである、前向き後ろ向き(Forward-Backward)アルゴリズムにより、確率値が算出されることを示す。また、数式1、2等において、「Pr(q=j、O(n)|λall)」は、全ての音響モデルパラメータ「λall」が与えられたという条件のもと、特徴ベクトル部分系列「O(n)」が観測され、かつそのベクトル系列の時刻(フレーム)「t」における状態が「j」である確率である。 In Equation 1, “λ all ” is a parameter of all acoustic models (teacher data), and “N” is the total number of states of the entire teacher data. Formula 2 indicates that the probability value is calculated by a forward-backward algorithm that is a known algorithm. In addition, in Equations 1, 2, etc., “Pr (q t = j, O (n) | λ all )” is a feature vector portion under the condition that all acoustic model parameters “λ all ” are given. The probability is that the sequence “O (n) ” is observed and the state of the vector sequence at time (frame) “t” is “j”.

つまり、数式2は、前向き後ろ向きアルゴリズムを用いて、全ての音響モデルパラメータ「λall」が与えられたという条件のもと、特徴ベクトル部分系列「O(n)」が観測され、かつそのベクトル系列の時刻(フレーム)「t」における状態が「j」である確率を算出する数式である。 That is, Equation 2 uses the forward-backward algorithm to observe the feature vector partial series “O (n) ” under the condition that all acoustic model parameters “λ all ” are given, and the vector series Is a mathematical formula for calculating the probability that the state at time (frame) “t” is “j”.

以下、数式2における確率値を算出する方法について説明する。従来の発音評定や音声認識などに用いる音素単位の音響モデル(HMM)は、音素ごとに独立しており、1つの音響モデルのみで実行するように定義されている。前向き後ろ向きアルゴリズムは、数式2のように全ての音響モデルパラメータ「λall」を用いて実行することは出来ない。そこで独立した音素ごとの音響モデルをあたかも1つの大きな音響モデルとして振舞うように改造する。 Hereinafter, a method for calculating the probability value in Expression 2 will be described. Conventional phoneme-based acoustic models (HMMs) used for pronunciation evaluation and speech recognition are independent for each phoneme and are defined to be executed by only one acoustic model. The forward-backward algorithm cannot be executed using all acoustic model parameters “λ all ” as shown in Equation 2. Therefore, the acoustic model for each independent phoneme is modified so that it behaves as one large acoustic model.

具体的には、例えば、レフトtoライト型の1つの音素HMMは始端と終端の状態を持ち、その間が自己遷移を含めた状態遷移でつながれた形で独立している。その1つの音素HMMの終端状態から自分自身もあわせて全ての音素HMMの始端状態へと状態遷移を仮想的につなぎ合わせる。こうして終端から始端への仮想状態遷移を全ての音素HMMにおいて作成しつなぎ合わせることにより、複数の音素HMMを1つの大きな音響モデルとして実装する。したがって、教師データは、隠れマルコフモデル(HMM)であり、一の音素HMMの終端状態から、当該一の音素または他のすべての音素の始端状態へ連結された音響モデルであることは好適である。   Specifically, for example, one left-to-right phoneme HMM has a start end state and a terminal end state, and is independent in a form in which a state transition including a self transition is connected therebetween. The state transition is virtually connected from the terminal state of the one phoneme HMM to the start state of all the phoneme HMMs. In this way, a virtual state transition from the end to the start is created and connected in all phoneme HMMs, so that a plurality of phoneme HMMs are mounted as one large acoustic model. Therefore, it is preferable that the teacher data is a hidden Markov model (HMM) and is an acoustic model connected from the terminal state of one phoneme HMM to the start state of the one phoneme or all other phonemes. .

以上のようにして改造された音響モデルを用いることで数式2の前向き後ろ向きアルゴリズムは実行される。なお、この改造された音響モデルならびにその音響モデルを用いて実行される前向き後ろ向きアルゴリズムのことを、音素エルゴディック音響モデルならびに音素エルゴディック前向き後ろ向きアルゴリズムと呼ぶこととする。   By using the acoustic model modified as described above, the forward / backward algorithm of Expression 2 is executed. The modified acoustic model and the forward-facing backward algorithm executed by using the acoustic model are referred to as a phoneme ergodic acoustic model and a phoneme ergodic forward-backward algorithm.

つまり、評定値算出部110は、取得した1以上の事後確率を基にした音素の確率値をパラメータとして音声の評定値を算出する。評定値算出部110は、例えば、時間ごとの音素の確率値の時間区間における平均値や中央値を算出し、当該算出した値を評定値とする。そして、時間区間を一文章や一単語や一音素などの区間にすれば、評定値算出部110は、文章ごとや単語ごとや音素ごとの評定値を算出できる。評定値算出部110は、通常、MPUやメモリ等から実現され得る。評定値算出部110の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。   That is, the rating value calculation unit 110 calculates the rating value of the speech using the phoneme probability value based on the acquired one or more posterior probabilities as a parameter. For example, the rating value calculation unit 110 calculates an average value or median value of the probability values of the phonemes for each time in the time interval, and uses the calculated value as the rating value. If the time interval is set to a segment such as one sentence, one word, or one phoneme, the rating value calculation unit 110 can calculate a rating value for each sentence, each word, or each phoneme. The rating value calculation unit 110 can usually be realized by an MPU, a memory, or the like. The processing procedure of the rating value calculation unit 110 is usually realized by software, and the software is recorded on a recording medium such as a ROM. However, it may be realized by hardware (dedicated circuit).

出力部111は、評定値算出部110が算出した評定値を出力する。評定値の出力態様は問わない。評定値は数値で出力されても良いし、折れ線グラフや棒グラフ等で出力されても良い。ここで、出力とは、ディスプレイへの表示、プリンタへの印字、音出力、外部の装置への送信、記録媒体への蓄積等を含む概念である。出力部111は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部111は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。   The output unit 111 outputs the rating value calculated by the rating value calculation unit 110. The output mode of the rating value does not matter. The rating value may be output as a numerical value, or may be output as a line graph or a bar graph. Here, the output is a concept including display on a display, printing on a printer, sound output, transmission to an external device, accumulation in a recording medium, and the like. The output unit 111 may be considered as including or not including an output device such as a display or a speaker. The output unit 111 can be realized by output device driver software, or output device driver software and an output device.

次に、発音評定装置の動作について図2、図3のフローチャートを用いて説明する。   Next, the operation of the pronunciation rating device will be described with reference to the flowcharts of FIGS.

(ステップS201)入力受付部101は、発音評定装置の動作開始を指示する動作開始指示を受け付けたか否かを判断する。動作開始指示を受け付ければステップS202に行き、動作開始指示を受け付けなければステップS214に飛ぶ。   (Step S201) The input receiving unit 101 determines whether or not an operation start instruction for instructing an operation start of the pronunciation rating device has been received. If an operation start instruction is accepted, the process goes to step S202, and if an operation start instruction is not accepted, the process jumps to step S214.

(ステップS202)音声受付部104は、音声の入力を受け付けたか否かを判断する。音声の入力を受け付ければステップS203に行き、音声の入力を受け付けなければステップS213に飛ぶ。   (Step S202) The voice receiving unit 104 determines whether or not a voice input has been received. If a voice input is accepted, the process goes to step S203, and if a voice input is not accepted, the process jumps to step S213.

(ステップS203)フレーム音声データ取得部105は、ステップS202で受け付けた音声のデータを図示しないバッファに一時格納する。   (Step S203) The frame audio data acquisition unit 105 temporarily stores the audio data received in step S202 in a buffer (not shown).

(ステップS204)フレーム音声データ取得部105は、バッファに一時格納した音声データをフレームに区分し、当該区分されたフレーム毎の音声データであるフレーム音声データを取得し、1以上のフレーム音声データをメモリ上に配置する。   (Step S204) The frame audio data acquisition unit 105 divides the audio data temporarily stored in the buffer into frames, acquires frame audio data that is audio data for each of the divided frames, and obtains one or more frame audio data. Place on memory.

(ステップS205)特徴ベクトル系列取得部106は、フレーム音声データ取得部105が取得した1以上のフレーム音声データをそれぞれ音声分析し、1以上の特徴ベクトルを抽出し、特徴ベクトル系列(O=o,o,・・o・・,o)を得る。本特徴ベクトルは、例えば、三角型フィルタを用いたチャネル数24のフィルタバンク出力を離散コサイン変換したMFCCであり、その静的パラメータ、デルタパラメータおよびデルタデルタパラメータをそれぞれ12次元、さらに正規化されたパワーとデルタパワーおよびデルタデルタパワー(39次元)を有する。 (Step S205) The feature vector sequence acquisition unit 106 performs speech analysis on each of the one or more frame audio data acquired by the frame audio data acquisition unit 105, extracts one or more feature vectors, and extracts a feature vector sequence (O = o 1 , get o 2, ·· o t ··, the o T). This feature vector is, for example, a MFCC obtained by discrete cosine transform of a filter bank output of 24 channels using a triangular filter, and the static parameter, the delta parameter, and the delta delta parameter are further normalized to 12 dimensions, respectively. Power and delta power and delta delta power (39th dimension).

(ステップS206)最適状態系列取得部107は、評定対象音素系列格納部103から評定対象音素系列を読み出す。   (Step S <b> 206) The optimum state sequence acquisition unit 107 reads the rating target phoneme sequence from the rating target phoneme sequence storage unit 103.

(ステップS207)最適状態系列取得部107は、ステップS206で読み出した評定対象音素系列に沿った音響モデルを、教師データ格納部102から読み出し、メモリ上に配置する。   (Step S207) The optimum state sequence acquisition unit 107 reads out the acoustic model along the evaluation target phoneme sequence read out in step S206 from the teacher data storage unit 102 and arranges it on the memory.

(ステップS208)最適状態系列取得部107は、ステップS207で読み出した音響モデルと、ステップS205で取得した特徴ベクトル系列(O=o,o,・・o・・,o)とを比較し、フレーム毎の最適状態(特徴ベクトルoに対する最適状態)の集合である最適状態系列(q ,q ,・・q ・・,q )を、Viterbiアルゴリズムにより取得する。 (Step S208) optimal state sequence acquisition section 107, an acoustic model read in step S207, the obtained feature vector series in step S205 (O = o 1, o 2, ·· o t ··, o T) and comparison, the optimal state sequence is a set of (optimal conditions for the feature vector o t) optimal conditions for each frame (q * 1, q * 2 , ·· q * t ··, q * T) , and the Viterbi algorithm get.

(ステップS209)最適音素部分系列取得部108は、ステップS208で取得した最適状態系列(q ,q ,・・q ・・,q )の中で、同一の音素が連続する1以上の最適音素系列を識別し、当該1以上の最適音素系列の組である最適音素部分系列を1組以上取得し、メモリ上に1組以上の最適音素部分系列を配置する。各最適音素部分系列の区切りの情報は、何でも良い。つまり、各最適音素部分系列は、異なるバッファに格納されても良いし、区切りの情報(例えば「,」)が、最適音素部分系列の間に挿入されていても良い。 (Step S209) The optimal phoneme subsequence acquisition unit 108 selects the same phoneme in the optimal state sequence (q * 1 , q * 2 ,... Q * t. , Q * T ) acquired in step S208. One or more continuous optimal phoneme sequences are identified, one or more optimal phoneme subsequences that are a set of the one or more optimal phoneme sequences are acquired, and one or more optimal phoneme subsequences are arranged in the memory. Any information may be used as the delimiter for each optimal phoneme subsequence. That is, each optimum phoneme subsequence may be stored in a different buffer, or delimiter information (for example, “,”) may be inserted between the optimum phoneme subsequences.

(ステップS210)特徴ベクトル部分系列取得部109は、ステップS205で取得した特徴ベクトル系列から、ステップS209で取得した各最適音素部分系列に対応する1以上の特徴ベクトルの組である特徴ベクトル部分系列({o ,o ,・・}(1)・・・・{・・・,o ・・,o T(n)(n)・・・{・・・,o (s)}を1組以上取得する。特徴ベクトル部分系列取得部109は、最適音素部分系列と特徴ベクトル部分系列の対応を、フレームIDや時刻でとる。 (Step S210) The feature vector partial sequence acquisition unit 109 is a feature vector partial sequence that is a set of one or more feature vectors corresponding to each optimum phoneme partial sequence acquired in step S209 from the feature vector sequence acquired in step S205 ( {O * 1 , o * 2 , ...} (1) ... {..., o * t ..., o * T (n) } (n) ... {..., o * T } (s) } is acquired in one or more sets, and feature vector partial sequence acquisition section 109 takes the correspondence between the optimal phoneme partial sequence and the feature vector partial sequence based on the frame ID and time.

(ステップS211)評定値算出部110は、評定値を算出する。評定値を算出するアルゴリズム例の詳細は、図3のフローチャートを用いて説明する。   (Step S211) The rating value calculation unit 110 calculates a rating value. Details of an example algorithm for calculating the rating value will be described with reference to the flowchart of FIG.

(ステップS212)出力部111は、評定値算出部110が算出した評定値を出力する。   (Step S212) The output unit 111 outputs the rating value calculated by the rating value calculation unit 110.

(ステップS213)音声受付部104は、タイムアウトか否かを判断する。つまり、音声受付部104は、所定の時間以上、音声の入力を受け付けなかったか否かを判断する。タイムアウトであればステップS201に戻り、タイムアウトでなければステップS202に戻る。   (Step S213) The voice reception unit 104 determines whether or not a timeout has occurred. That is, the voice receiving unit 104 determines whether or not a voice input has been received for a predetermined time or more. If timed out, the process returns to step S201, and if not timed out, the process returns to step S202.

(ステップS214)入力受付部101は、終了指示を受け付けたか否かを判断する。終了指示を受け付ければ処理を終了し、終了指示を受け付なければステップS201に戻る。   (Step S214) The input receiving unit 101 determines whether an end instruction has been received. If an end instruction is accepted, the process ends. If no end instruction is accepted, the process returns to step S201.

なお、図2のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。   In the flowchart of FIG. 2, the process is terminated by powering off or a process termination interrupt.

次に、ステップS211の評定値を算出するアルゴリズム例の詳細について、図3のフローチャートを用いて説明する。   Next, details of an example algorithm for calculating the rating value in step S211 will be described using the flowchart of FIG.

(ステップS301)評定値算出部110は、評定値を代入するバッファを初期化する。   (Step S301) The rating value calculation unit 110 initializes a buffer into which the rating value is substituted.

(ステップS302)評定値算出部110は、カウンタiに1を代入する。なお、カウンタiは、評定値を代入するバッファ(例えば、配列)のアドレス(配列の添え字)を示すカウンタである。   (Step S302) The rating value calculation unit 110 substitutes 1 for the counter i. The counter i is a counter indicating an address (array suffix) of a buffer (for example, an array) into which a rating value is substituted.

(ステップS303)評定値算出部110は、教師データ格納部102から、すべての音響モデルを読み出し、メモリ上に配置する。   (Step S303) The rating value calculation unit 110 reads out all acoustic models from the teacher data storage unit 102 and arranges them on the memory.

(ステップS304)評定値算出部110は、カウンタnに1を代入する。   (Step S304) The rating value calculation unit 110 assigns 1 to the counter n.

(ステップS305)評定値算出部110は、n番目の最適音素部分系列が存在するか否かを判断する。n番目の最適音素部分系列が存在すればステップS306に行き、n番目の最適音素部分系列が存在しなければステップS318に行く。   (Step S305) The rating value calculation unit 110 determines whether or not the nth optimum phoneme subsequence exists. If the nth optimum phoneme subsequence exists, the process goes to step S306, and if the nth optimum phoneme subsequence does not exist, the process goes to step S318.

(ステップS306)評定値算出部110は、n番目の最適音素部分系列を取得し、メモリ上に配置する。   (Step S306) The rating value calculation unit 110 acquires the nth optimal phoneme subsequence and arranges it on the memory.

(ステップS307)評定値算出部110は、n番目の特徴ベクトル部分系列を取得し、メモリ上に配置する。   (Step S307) The rating value calculation unit 110 acquires the n-th feature vector partial series and places it on the memory.

(ステップS308)評定値算出部110は、特徴ベクトル部分系列の時刻ごと、全ての音響モデルの状態ごとの確率を、全ての音響モデルパラメータを用いて、前向き後ろ向きアルゴリズムにより算出し、バッファに格納する。   (Step S308) The rating value calculation unit 110 calculates the probabilities for each time of the feature vector partial series and for each state of all acoustic models using a forward-backward algorithm using all acoustic model parameters, and stores them in the buffer. .

(ステップS309)評定値算出部110は、カウンタtに1を代入する。   (Step S309) The rating value calculation unit 110 substitutes 1 for the counter t.

(ステップS310)評定値算出部110は、「t<=T(n)」を満たすか否か、つまり、評定対象のt番目のフレームが存在するか否かを判断する。t番目のフレームが存在すればステップS311に行き、t番目のフレームが存在しなければステップS317に行く。 (Step S310) The rating value calculation unit 110 determines whether or not “t <= T (n) ” is satisfied, that is, whether or not the t-th frame to be evaluated exists. If the t-th frame exists, the process goes to step S311. If the t-th frame does not exist, the process goes to step S317.

(ステップS311)評定値算出部110は、t番目のフレームの状態確率の総和を算出し、メモリ上に配置する。   (Step S311) The rating value calculation unit 110 calculates the sum of the state probabilities of the t-th frame and places it on the memory.

(ステップS312)評定値算出部110は、最適音素「P 」に含まれる状態(j)を取得する。 (Step S312) The rating value calculation unit 110 acquires the state (j) included in the optimal phoneme “P t * ”.

(ステップS313)評定値算出部110は、状態(j)の事後確率を算出する。さらに具体的には、評定値算出部110は、「状態(j)の確率/状態確率の総和」により、状態(j)の事後確率を算出する。   (Step S313) The rating value calculation unit 110 calculates the posterior probability of the state (j). More specifically, the rating value calculation unit 110 calculates the posterior probability of the state (j) by “the probability of the state (j) / the sum of the state probabilities”.

(ステップS314)評定値算出部110は、ステップS313で算出した事後確率をi番目の評定値に加算し、i番目の評定値のバッファに代入する。   (Step S314) The rating value calculation unit 110 adds the posterior probability calculated in step S313 to the i-th rating value, and substitutes it into the i-th rating value buffer.

(ステップS315)評定値算出部110は、最適音素「P 」に、次の状態が存在するか否かを判断する。次の状態が存在すればステップS312に行き、次の状態が存在しなければステップS316に行く。 (Step S315) The rating value calculation unit 110 determines whether or not the next state exists in the optimal phoneme “P t * ”. If the next state exists, the process goes to step S312, and if the next state does not exist, the process goes to step S316.

(ステップS316)評定値算出部110は、カウンタt、およびカウンタiを1、インクリメントし、ステップS310に戻る。   (Step S316) The rating value calculation unit 110 increments the counter t and the counter i by 1, and returns to step S310.

(ステップS317)評定値算出部110は、カウンタnを1、インクリメントし、ステップS305に戻る。   (Step S317) The rating value calculation unit 110 increments the counter n by 1, and returns to step S305.

(ステップS318)評定値算出部110は、フレーム毎の評定値から、音素区間、単語区間、文章区間の評定値を算出し、算出値をメモリ上に配置する。かかる、音素区間、単語区間、文章区間の評定値の算出方法は、フレーム毎の評定値の各区間における平均値や中央値を算出する方法等がある。上位処理にリターンする。   (Step S318) The rating value calculation unit 110 calculates the rating values of the phoneme section, the word section, and the sentence section from the rating value for each frame, and arranges the calculated values on the memory. As a method for calculating the rating values of the phoneme section, the word section, and the sentence section, there are a method of calculating an average value and a median value in each section of the rating values for each frame. Return to upper process.

以上、本実施の形態によれば、精度の高い発音評定ができる。具体的には、本実施の形態によれば、音素単位の評定を正確に行うことができる。   As described above, according to the present embodiment, it is possible to perform pronunciation evaluation with high accuracy. Specifically, according to the present embodiment, it is possible to accurately evaluate phonemes.

なお、本実施の形態における発音評定装置の評価実験の結果について、他の発音評定装置の評価実験の結果にまとめて後述する。   In addition, the result of the evaluation experiment of the pronunciation rating device in the present embodiment will be described later together with the result of the evaluation experiment of another pronunciation rating device.

また、本実施の形態の具体例によれば、評定値算出部110は、数式1、2により、上記の事後確率値を算出した。しかし、評定値算出部110が評定値を算出するアルゴリズムは、数式1、2によるものとは限らない。例えば、数式1の事後確率の算出において、音響モデルの状態としての、起こりうる全ての事象が母音の音素を表すもののみになっても良い。かかる場合、数式2の確率を求めるために用いる音響モデルパラメータ「λall」も母音の音素を表すもののみとなり、評定対象の音素は、いずれかの母音を表すもののみが許されることは明らかである。つまり、本実施の形態における発音評定装置は、全ての音響モデルパラメータが与えられたという条件のもと、音素区間音声データの時刻ごとに、音素区間音声データが評定対象の状態である事後確率から音素の評定値を算出することができる。 Further, according to the specific example of the present embodiment, the rating value calculation unit 110 calculates the posterior probability value according to Equations 1 and 2. However, the algorithm by which the rating value calculation unit 110 calculates the rating value is not always based on Equations 1 and 2. For example, in the calculation of the posterior probability of Formula 1, all the possible events as the state of the acoustic model may be only those that represent phonemes of vowels. In such a case, it is clear that the acoustic model parameter “λ all ” used for obtaining the probability of Equation 2 is also only the one representing the vowel phoneme, and only the vowel representing the vowel is allowed to be evaluated. is there. That is, the pronunciation rating device in the present embodiment is based on the posterior probability that the phoneme segment speech data is in the state to be evaluated for each time of the phoneme segment speech data under the condition that all acoustic model parameters are given. The phoneme rating value can be calculated.

また、本実施の形態において、評定対象の音声データが、予め音素区間に区切られた音声データである音素区間音声データの集合でも良い。かかる場合、発音評定装置において、最適状態系列取得部や最適音素部分系列取得部は不要である。かかる場合、発音評定装置は、同一の音素が連続する1以上の最適音素系列の集合である最適音素部分系列を1組以上格納している最適音素部分系列格納部を有する。   In the present embodiment, the speech data to be evaluated may be a set of phoneme interval speech data which is speech data previously divided into phoneme intervals. In such a case, in the pronunciation rating device, the optimal state sequence acquisition unit and the optimal phoneme partial sequence acquisition unit are not necessary. In such a case, the pronunciation rating device includes an optimal phoneme partial sequence storage unit that stores one or more optimal phoneme partial sequences that are a set of one or more optimal phoneme sequences in which the same phoneme is continuous.

また、本実施の形態において、発音評定装置が、フレーム毎の評定値を基にして、文章や単語の評定値を算出することは好適である。具体的には、発音評定装置は、文章や単語に含まれるフレーム毎の複数の評定値の平均値や中央値から評定値を算出することは好適である。   In the present embodiment, it is preferable that the pronunciation rating device calculates a rating value of a sentence or a word based on a rating value for each frame. Specifically, it is preferable that the pronunciation rating device calculates a rating value from an average value or a median value of a plurality of rating values for each frame included in a sentence or a word.

さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における発音評定装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、音声の入力を受け付ける音声受付部と、前記音声受付部が受け付けた音声を、フレームに区分し、区分されたフレーム毎の音声データであるフレーム音声データを1以上得るフレーム音声データ取得部と、前記1以上のフレーム音声データから、フレーム毎の特徴ベクトルの集合である特徴ベクトル系列を取得する特徴ベクトル系列取得部と、前記特徴ベクトル系列取得部が取得した特徴ベクトル系列から、格納されている各最適音素部分系列に対応する1以上の特徴ベクトルの組である特徴ベクトル部分系列を1組以上取得する特徴ベクトル部分系列取得部と、格納されている教師データを読み出し、当該教師データを用いて、前記特徴ベクトル部分系列取得部が取得した特徴ベクトル部分系列が評定対象の音素である事後確率を算出し、当該事後確率から音声の評定値を算出する評定値算出部と、前記評定値算出部が算出した評定値を出力する出力部として機能させるためのプログラム、である。   Furthermore, the processing in the present embodiment may be realized by software. Then, this software may be distributed by software download or the like. Further, this software may be recorded and distributed on a recording medium such as a CD-ROM. This also applies to other embodiments in this specification. Note that the software that realizes the pronunciation rating device in the present embodiment is the following program. In other words, this program divides a computer into a voice reception unit that receives voice input and a voice received by the voice reception unit into frames, and one or more frame voice data that is voice data for each of the divided frames. A frame audio data acquisition unit, a feature vector sequence acquisition unit that acquires a feature vector sequence that is a set of feature vectors for each frame from the one or more frame audio data, and a feature vector acquired by the feature vector sequence acquisition unit A feature vector partial sequence acquisition unit for acquiring one or more feature vector partial sequences, which are a set of one or more feature vectors corresponding to each stored optimal phoneme subsequence, and stored teacher data from the sequence; The feature vector partial sequence acquired by the feature vector partial sequence acquisition unit using the teacher data A program for calculating a posteriori probability that is a phoneme to be rated, calculating a speech rating value from the posteriori probability, and an output unit for outputting the rating value calculated by the rating value calculator .

また、上記プログラムにおいて、コンピュータを格納されている評定対象音素系列に沿った音響モデルを読み出し、当該音響モデルと、前記特徴ベクトル系列取得部が取得した特徴ベクトル系列であり、前記音響モデルに対応する特徴ベクトル系列とを比較し、フレーム毎の最適状態の集合である最適状態系列を取得する最適状態系列取得部と、前記最適状態系列取得部が取得した最適状態系列の中で、同一の音素が連続する1以上の最適音素系列を識別し、当該1以上の最適音素系列の集合である最適音素部分系列を1組以上取得する最適音素部分系列取得部として、さらに機能させ、前記特徴ベクトル部分系列取得部は、前記特徴ベクトル系列取得部が取得した特徴ベクトル系列から、前記最適音素部分系列取得部が取得した各最適音素部分系列に対応する1以上の特徴ベクトルの組である特徴ベクトル部分系列を1組以上取得するように機能させるためのプログラム、であることは好適である。   Further, in the above program, the acoustic model along the evaluation target phoneme sequence stored in the computer is read, and the acoustic model and the feature vector sequence acquired by the feature vector sequence acquisition unit correspond to the acoustic model. An optimal state sequence acquisition unit that compares a feature vector sequence and acquires an optimal state sequence that is a set of optimal states for each frame, and among the optimal state sequences acquired by the optimal state sequence acquisition unit, the same phoneme The feature vector partial sequence further functions as an optimal phoneme partial sequence acquisition unit that identifies one or more continuous optimal phoneme sequences and acquires one or more optimal phoneme partial sequences that are a set of the one or more optimal phoneme sequences. The acquisition unit obtains each optimum phoneme acquired by the optimal phoneme subsequence acquisition unit from the feature vector sequence acquired by the feature vector sequence acquisition unit. Program for operating such a set feature vectors subsequences is one or more feature vectors corresponding to the partial sequence to obtain one or more sets that, is is preferred.

また、上記プログラムにおいて、前記評定値算出部が、全ての音響モデルである教師データが与えられたという条件のもと、音素区間音声データの時刻ごとに、当該音素区間音声データが、評定対象の正解となる音素に対応した音響モデルの持つ状態である事後確率を算出し、当該事後確率から音素の評定値を算出するように機能させるためのプログラム、であることは好適である。   Further, in the above program, the phoneme segment speech data is evaluated for each time of the phoneme segment speech data under the condition that the evaluation value calculation unit is provided with teacher data that is all acoustic models. It is preferable to be a program for calculating a posterior probability that is a state of an acoustic model corresponding to a correct phoneme and functioning to calculate a rating value of the phoneme from the posterior probability.

また、上記の教師データは、隠れマルコフモデル(HMM)であり、一の音素HMMの終端状態から、当該一の音素または他のすべての音素の始端状態へ連結された音響モデルである、ことは好適である。
(実施の形態2)
Further, the teacher data is a hidden Markov model (HMM), and is an acoustic model connected from the terminal state of one phoneme HMM to the starting state of the one phoneme or all other phonemes. Is preferred.
(Embodiment 2)

本実施の形態において、実施の形態1で説明したPDAPS-PEアルゴリズムをさらに音素の評定という意味で改良したアルゴリズムにより発音評定を行う発音評定装置について説明する。このアルゴリズムは、PDAPS-PEアルゴリズムの改良であるということと、その名前の修飾子であり、そのアルゴリズムの特徴であった音素エルゴディックな要素を取り除きより純粋に対象の音素区間を評定するということで、PDAPS(Phoneme unit Dynamic A posteriori Probability based pronunciation Scoring/音韻単位動的事後確率に基づく発音評定)と呼ぶこととする。   In the present embodiment, a pronunciation rating apparatus that performs pronunciation rating using an algorithm obtained by improving the PDAPS-PE algorithm described in the first embodiment in terms of phoneme evaluation will be described. This algorithm is an improvement of the PDAPS-PE algorithm, and is a modifier of its name, which removes the phoneme ergodic elements that were characteristic of the algorithm and more purely evaluates the target phoneme interval. Therefore, it is called PDAPS (phoneme unit dynamic A posteriori probability based pronunciation scoring).

実施の形態1で説明したPDAPS-PEアルゴリズムにおいて、評定対象の音声データに含まれる正解となる音素があきらかに限定されているにも関わらず、数式1の分子にある評定対象音素であるところの状態の確率を表す特徴ベクトル列「O(n)」が観測され、かつ、時刻「t」における状態が「j」であることの確率の算出に「λall」を用いることで、評定対象音素以外の音素の確率値が混入していた。このとき同じく数式1の分母にある各状態の確率を表す値にも同様に、求めたい音素以外の音素の確率が混入している。ここで、かかる混入要素を取り除いたものがPDAPSアルゴリズムである。 In the PDAPS-PE algorithm described in the first embodiment, although the correct phonemes included in the speech data to be rated are clearly limited, they are the phonemes to be evaluated in the numerator of Equation 1. A feature vector string “O (n) ” representing the probability of a state is observed, and “λ all ” is used to calculate the probability that the state at time “t” is “j”, so that the phonemes to be evaluated Phoneme probability values other than were mixed. At this time, the probabilities of phonemes other than the phoneme to be obtained are also mixed in the values representing the probabilities of the states in the denominator of Equation 1. Here, the PDAPS algorithm is obtained by removing such mixed elements.

図4は、本実施の形態における発音評定装置のブロック図である。本発音評定装置は、入力受付部101、教師データ格納部102、評定対象音素系列格納部103、音声受付部104、フレーム音声データ取得部105、特徴ベクトル系列取得部106、最適状態系列取得部107、最適音素部分系列取得部108、特徴ベクトル部分系列取得部109、評定値算出部410、出力部111を具備する。   FIG. 4 is a block diagram of the pronunciation rating device in the present embodiment. The pronunciation evaluation apparatus includes an input reception unit 101, a teacher data storage unit 102, a rating target phoneme sequence storage unit 103, a speech reception unit 104, a frame audio data acquisition unit 105, a feature vector sequence acquisition unit 106, and an optimum state sequence acquisition unit 107. , An optimal phoneme partial sequence acquisition unit 108, a feature vector partial sequence acquisition unit 109, a rating value calculation unit 410, and an output unit 111.

本発音評定装置は、実施の形態1で述べた発音評定装置と比較して、評定値算出部のみが異なる。   This pronunciation evaluation apparatus differs from the pronunciation evaluation apparatus described in the first embodiment only in the evaluation value calculation unit.

評定値算出部410は、音素の評定値を音素区間データから算出する。評定値算出部410は、音素区間音声データ(音素の区間に分離された音声データ)の時刻ごとに、音素区間音声データが評定対象の正解となる音素である事後確率を算出し、当該事後確率から音素の評定値を算出する。また、さらに具体的には、評定値算出部410は、例えば、以下の数式3、数式4により、最適音素部分系列取得部108が取得した最適音素部分系列と、その部分系列に対応する特徴ベクトル部分系列取得部109が取得した特徴ベクトル部分系列「O(n)」と、教師データ格納部102から全ての音響モデルを読み出し、最適音素部分系列の時刻ごとの最適音素「P 」ごとに、全ての音響モデルの全状態において、その状態「j」が属する音響モデルパラメータ「λP(j)」が与えられたという条件のもと、特徴ベクトル系列「O(n)」が観測され、かつそのベクトル系列の時刻(フレーム)「t」における状態が「j」である確率を取得し、その取得した状態ごとの確率値から、全ての音素(音響モデル)について音響モデルパラメータ「λP(j)」が与えられたという条件のもと、特徴ベクトル系列「O(n)」が観測される確率を取得し、その取得した音素ごとの確率値から、特徴ベクトル系列「O(n)」が与えられたときに、そのベクトル系列が最適音素「P 」である事後確率を取得することで、音声の評定値(PDAPS(t))を算出する。

Figure 0004859125
Figure 0004859125
The rating value calculation unit 410 calculates a phoneme rating value from phoneme interval data. The rating value calculation unit 410 calculates, for each time of phoneme segment speech data (speech data separated into phoneme segments), a posterior probability that the phoneme segment speech data is a correct phoneme to be evaluated, and the posterior probability The phoneme rating value is calculated from More specifically, the rating value calculation unit 410 uses, for example, the following Formula 3 and Formula 4, the optimal phoneme partial sequence acquired by the optimal phoneme partial sequence acquisition unit 108, and the feature vector corresponding to the partial sequence: The feature vector partial sequence “O (n) ” acquired by the partial sequence acquisition unit 109 and all the acoustic models are read from the teacher data storage unit 102, and each optimal phoneme “P t * ” for each time of the optimal phoneme subsequence is read. In all states of all acoustic models, the feature vector series “O (n) ” is observed under the condition that the acoustic model parameter “λ P (j) ” to which the state “j” belongs is given, And the probability that the state at the time (frame) “t” of the vector series is “j” is acquired, and the sound for all phonemes (acoustic models) is obtained from the probability value for each acquired state. Under the condition that the model parameter "lambda P (j)" is given, and acquires the probabilities are observed feature vector sequence "O (n)", from the probability values for each the acquired phonemic feature vector series When “O (n) ” is given, the posterior probability that the vector series is the optimal phoneme “P t * ” is acquired, and the speech rating value (PDPS (t)) is calculated.
Figure 0004859125
Figure 0004859125

なお、数式3において、「λ(Pt*)」は音素「P 」の音響モデルのパラメータであり、「λP(j)」は状態「j」を含む音響モデルのパラメータである。状態「j」が音素「P 」の音響モデルの持つ状態であるならば、「λP(j)」と「λ(Pt*)」は同じ音響モデルのパラメータを表す。また、「M」は全ての音響モデル数であり、「N」は音響モデル全体の総状態数である。また、数式3において「Pr(m)」は音素「m」の事前確率を表し、音響モデルパラメータ「λ(m)」の事前確率「Pr(λ(m))」を意味する(「Pr(P )」についても同様)。また、数式3において音素の事前確率「Pr(m)」はすべての音素において一定と仮定し、式の途中で省略している。数式4は、状態「j」が属する音響モデルパラメータ「λP(j)」が与えられたという条件のもと、特徴ベクトル系列「O(n)」が観測され、かつそのベクトル系列の時刻(フレーム)「t」における状態が「j」である確率を、前向き後向き(Forward−Backward)アルゴリズムにより算出することを示す。 In Equation 3, “λ (Pt *) ” is a parameter of the acoustic model of the phoneme “P t * ”, and “λ P (j) ” is a parameter of the acoustic model including the state “j”. If the state “j” is a state of the acoustic model of the phoneme “P t * ”, “λ P (j) ” and “λ (Pt *) ” represent parameters of the same acoustic model. “M” is the number of all acoustic models, and “N” is the total number of states of the entire acoustic model. In Formula 3, “Pr (m)” represents the prior probability of the phoneme “m”, and means the prior probability “Pr (λ (m))” of the acoustic model parameter “λ (m)” (“Pr ( The same applies to Pt * )). In Formula 3, the phoneme prior probability “Pr (m)” is assumed to be constant for all phonemes, and is omitted in the middle of the formula. Equation 4 shows that the feature vector sequence “O (n) ” is observed under the condition that the acoustic model parameter “λ P (j) ” to which the state “j” belongs is given, and the time ( It shows that the probability that the state in the frame “t” is “j” is calculated by the forward-backward algorithm.

このとき、数式3の各項における分子は評定対象音素の音響モデルパラメータが与えられたという条件のもと、特徴ベクトル系列「O(n)」が観測される確率を表しており、評定対象音素以外の確率の混入が取り除かれている。さらに、その分母においても各状態を表すところの確率は、その状態が属する音素以外の確率の混入が取り除かれている。そして、数式3により算出される評定値は、入力の音素区間評定対象音声データが、評定対象の音素モデルに近い(似た)音声データであり、それ以外の音素とは遠い(似ていない)音声データであるならば、分子と分母の値が近づいてそれは大きくなり(1に近くなり)、評定対象以外の音素モデルに近ければ分子と分母の値は遠ざかって(分子<分母)それは小さくなる(0に近くなる)。また、いずれの音素モデルとも遠ければその分子と分母の各確率値は小さな値となり評定値は小さくなる。このようにしてPDAPSアルゴリズムは、評定対象音声データの音素区間を、より純粋に評定対象の音素として評定することで、高い評定精度を得ることができる。 At this time, the numerator in each term of Equation 3 represents the probability that the feature vector series “O (n) ” is observed under the condition that the acoustic model parameter of the phoneme to be evaluated is given. Probabilities other than are removed. Further, in the denominator, the probability of representing each state is excluded from the mixture of probabilities other than the phoneme to which the state belongs. The rating value calculated by Equation 3 is that the input phoneme segment rating target speech data is speech data that is close (similar) to the phoneme model to be rated and is far from (not similar to) the other phonemes. If it is speech data, the value of the numerator and denominator approaches and increases (close to 1), and the value of the numerator and denominator moves away (numerator <denominator) and decreases when close to the phoneme model other than the evaluation target (Close to 0). Further, if it is far from any phoneme model, each probability value of the numerator and denominator is small and the evaluation value is small. In this way, the PDAPS algorithm can obtain high evaluation accuracy by evaluating the phoneme section of the evaluation target speech data more purely as the phoneme to be evaluated.

評定値算出部410は、通常、MPUやメモリ等から実現され得る。評定値算出部410の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。   The rating value calculation unit 410 can be usually realized by an MPU, a memory, or the like. The processing procedure of the rating value calculation unit 410 is usually realized by software, and the software is recorded on a recording medium such as a ROM. However, it may be realized by hardware (dedicated circuit).

次に、発音評定装置の動作について説明する。本発音評定装置の動作において、実施の形態1の発音評定装置と比較して、評定値算出処理が異なる。したがって、図5のフローチャートを用いて、本発音評定装置の評定値算出処理について説明する。図5のフローチャートにおいて、図3のフローチャートと異なるステップについてのみ説明する。   Next, the operation of the pronunciation rating device will be described. In the operation of this pronunciation rating device, the rating value calculation process is different from that of the pronunciation rating device of the first embodiment. Therefore, the rating value calculation process of the pronunciation rating device will be described with reference to the flowchart of FIG. In the flowchart of FIG. 5, only steps different from the flowchart of FIG. 3 will be described.

(ステップS501)評定値算出部410は、特徴ベクトル部分系列の時刻ごと、全ての音響モデルの状態ごとの確率を、状態の属する音響モデルパラメータを用いて、前向き後ろ向きアルゴリズムにより算出し、バッファに格納する。なお、評定値算出部410は、上記の確率の算出前に、ステップS303で取得した音響モデルの中から、状態の属する音響モデルパラメータを取得する。   (Step S501) The rating value calculation unit 410 calculates the probability for each state of all the acoustic models for each time of the feature vector partial series using the acoustic model parameter to which the state belongs, and stores it in the buffer. To do. Note that the rating value calculation unit 410 acquires the acoustic model parameter to which the state belongs from the acoustic model acquired in step S303 before calculating the probability.

(ステップS502)評定値算出部410は、カウンタmに1を代入する。なお、mは、音素のカウンタである。   (Step S502) The rating value calculation unit 410 substitutes 1 for the counter m. Note that m is a phoneme counter.

(ステップS503)評定値算出部410は、m番目の音素の音響モデルが存在するか否かを判断する。m番目の音素の音響モデルが存在すればステップS504に行き、m番目の音素の音響モデルが存在しなければステップS506に行く。   (Step S503) The rating value calculation unit 410 determines whether or not an mth phoneme acoustic model exists. If the mth phoneme acoustic model exists, the process proceeds to step S504. If the mth phoneme acoustic model does not exist, the process proceeds to step S506.

(ステップS504)評定値算出部410は、m番目の音素の音響モデルに含まれる全状態の時刻tにおける確率の総和から、m番目の音素の確率を算出する。   (Step S504) The rating value calculation unit 410 calculates the probability of the mth phoneme from the sum of the probabilities at time t of all states included in the mth phoneme acoustic model.

(ステップS505)評定値算出部410は、カウンタmを1、インクリメントし、ステップS503に戻る。   (Step S505) The rating value calculation unit 410 increments the counter m by 1, and returns to step S503.

(ステップS506)評定値算出部410は、最適音素「P 」の事後確率を算出する。 (Step S506) The rating value calculation unit 410 calculates the posterior probability of the optimal phoneme “P t * ”.

(ステップS507)評定値算出部410は、算出した事後確率をi番目の評定値のバッファに格納する。   (Step S507) The rating value calculation unit 410 stores the calculated posterior probability in the i-th rating value buffer.

(ステップS508)評定値算出部410は、カウンタt、およびカウンタiを1、インクリメントし、ステップS310に戻る。   (Step S508) The rating value calculation unit 410 increments the counter t and the counter i by 1, and returns to step S310.

以上、本実施の形態によれば、精度の高い発音評定ができる。具体的には、本実施の形態によれば、音素単位の評定を精度高く行うことができる。   As described above, according to the present embodiment, it is possible to perform pronunciation evaluation with high accuracy. Specifically, according to the present embodiment, it is possible to accurately evaluate phonemes.

なお、本実施の形態における発音評定装置の評価実験の結果について、他の発音評定装置の評価実験の結果にまとめて後述する。   In addition, the result of the evaluation experiment of the pronunciation rating device in the present embodiment will be described later together with the result of the evaluation experiment of another pronunciation rating device.

また、本実施の形態の具体例によれば、評定値算出部410は、数式3、4により、上記の事後確率値を算出した。しかし、評定値算出部410が評定値を算出するアルゴリズムは、数式3、4によるものとは限らない。例えば、数式3の事後確率の算出において、音素としての、起こりうる全ての事象が母音の音素を表すもののみになっても良い。かかる場合、評定対象の音素は、いずれかの母音を表すもののみが許されることは明らかである。つまり、評定値算出部410は、音素区間音声データの時刻ごとに、音素区間音声データが評定対象の正解となる音素である事後確率を算出し、当該事後確率から音素の評定値を算出すればよい。   Further, according to the specific example of the present embodiment, the rating value calculation unit 410 calculates the above-described posterior probability value using Equations 3 and 4. However, the algorithm by which the rating value calculation unit 410 calculates the rating value is not always based on Formulas 3 and 4. For example, in the calculation of the posterior probability of Equation 3, all possible events as phonemes may be only those representing vowel phonemes. In such a case, it is clear that only the phonemes representing the vowels are allowed to be evaluated. That is, the rating value calculation unit 410 calculates the posterior probability that the phoneme segment speech data is the correct phoneme to be evaluated for each time of the phoneme segment speech data, and calculates the phoneme rating value from the posterior probability. Good.

また、本実施の形態において、発音評定装置が、フレーム毎の評定値を基にして、文章や単語の評定値を算出することは好適である。具体的には、発音評定装置は、文章や単語に含まれるフレーム毎の複数の評定値の平均値や中央値から評定値を算出することは好適である。   In the present embodiment, it is preferable that the pronunciation rating device calculates a rating value of a sentence or a word based on a rating value for each frame. Specifically, it is preferable that the pronunciation rating device calculates a rating value from an average value or a median value of a plurality of rating values for each frame included in a sentence or a word.

なお、本実施の形態における発音評定装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、音声の入力を受け付ける音声受付部と、前記音声受付部が受け付けた音声を、フレームに区分し、区分されたフレーム毎の音声データであるフレーム音声データを1以上得るフレーム音声データ取得部と、前記1以上のフレーム音声データから、フレーム毎の特徴ベクトルの集合である特徴ベクトル系列を取得する特徴ベクトル系列取得部と、前記特徴ベクトル系列取得部が取得した特徴ベクトル系列から、格納されている各最適音素部分系列に対応する1以上の特徴ベクトルの組である特徴ベクトル部分系列を1組以上取得する特徴ベクトル部分系列取得部と、格納されている教師データを読み出し、当該教師データを用いて、前記特徴ベクトル部分系列取得部が取得した特徴ベクトル部分系列が評定対象の音素である事後確率を算出し、当該事後確率から音声の評定値を算出する評定値算出部と、前記評定値算出部が算出した評定値を出力する出力部として機能させるためのプログラム、である。   Note that the software that realizes the pronunciation rating device in the present embodiment is the following program. In other words, this program divides a computer into a voice reception unit that receives voice input and a voice received by the voice reception unit into frames, and one or more frame voice data that is voice data for each of the divided frames. A frame audio data acquisition unit, a feature vector sequence acquisition unit that acquires a feature vector sequence that is a set of feature vectors for each frame from the one or more frame audio data, and a feature vector acquired by the feature vector sequence acquisition unit A feature vector partial sequence acquisition unit for acquiring one or more feature vector partial sequences, which are a set of one or more feature vectors corresponding to each stored optimal phoneme subsequence, and stored teacher data from the sequence; The feature vector partial sequence acquired by the feature vector partial sequence acquisition unit using the teacher data A program for calculating a posteriori probability that is a phoneme to be rated, calculating a speech rating value from the posteriori probability, and an output unit for outputting the rating value calculated by the rating value calculator .

また、上記プログラムにおいて、コンピュータを格納されている評定対象音素系列に沿った音響モデルを読み出し、当該音響モデルと、前記特徴ベクトル系列取得部が取得した特徴ベクトル系列であり、前記音響モデルに対応する特徴ベクトル系列とを比較し、フレーム毎の最適状態の集合である最適状態系列を取得する最適状態系列取得部と、前記最適状態系列取得部が取得した最適状態系列の中で、同一の音素が連続する1以上の最適音素系列を識別し、当該1以上の最適音素系列の組である最適音素部分系列を1組以上取得する最適音素部分系列取得部として、さらに機能させ、前記特徴ベクトル部分系列取得部は、前記特徴ベクトル系列取得部が取得した特徴ベクトル系列から、前記最適音素部分系列取得部が取得した各最適音素部分系列に対応する1以上の特徴ベクトルの組である特徴ベクトル部分系列を1組以上取得するように機能させるためのプログラム、であることは好適である。   Further, in the above program, the acoustic model along the evaluation target phoneme sequence stored in the computer is read, and the acoustic model and the feature vector sequence acquired by the feature vector sequence acquisition unit correspond to the acoustic model. An optimal state sequence acquisition unit that compares a feature vector sequence and acquires an optimal state sequence that is a set of optimal states for each frame, and among the optimal state sequences acquired by the optimal state sequence acquisition unit, the same phoneme The feature vector partial sequence further functions as an optimal phoneme partial sequence acquisition unit that identifies one or more continuous optimal phoneme sequences and acquires one or more optimal phoneme partial sequences that are sets of the one or more optimal phoneme sequences. The acquisition unit is configured to acquire each optimal phoneme unit acquired by the optimal phoneme subsequence acquisition unit from the feature vector sequence acquired by the feature vector sequence acquisition unit. It is preferably a program, to function so as to obtain a feature vector subsequences is a set of one or more feature vectors corresponding to the sequence one or more sets.

また、上記プログラムにおいて、前記評定値算出部が、音素区間音声データの時刻ごとに、音素区間音声データが評定対象の正解となる音素である事後確率を算出し、当該事後確率から音素の評定値を算出するように機能させるためのプログラム、であることは好適である。
(実施の形態3)
Further, in the above program, the rating value calculation unit calculates a posterior probability that the phoneme segment speech data is a correct phoneme to be evaluated for each time of the phoneme segment speech data, and determines a phoneme rating value from the posterior probability. It is preferable that the program is a program for causing the function to be calculated.
(Embodiment 3)

本実施の形態において、実施の形態2で説明したPDAPSアルゴリズムをさらに改良したアルゴリズムにより発音評定を行う発音評定装置について説明する。PDAPSアルゴリズムは、入力される評定対象音声データの全体と、その最適状態系列から求めた音素区間ごとに評定点を算出し、音素エルゴディックな要素を取り除いて純粋に音素区間を評定するアルゴリズムである。PDAPSアルゴリズムの評定値算出式には、評定対象の音素区間内のどの時刻(フレーム)においても評定値が同じになるという処理効率の意味から重複した計算を含んでおり、その重複を取り除いて改良したアルゴリズムが、本実施の形態において説明するアルゴリズムである。   In the present embodiment, a pronunciation rating apparatus that performs pronunciation rating using an algorithm obtained by further improving the PDAPS algorithm described in the second embodiment will be described. The PDAPS algorithm is an algorithm that calculates a rating point for each phoneme segment obtained from the entire input speech data to be evaluated and its optimum state sequence, and removes phoneme ergodic elements to evaluate the phoneme segment purely. . The rating value calculation formula of the PDAPS algorithm includes a duplicate calculation from the meaning of processing efficiency that the rating value is the same at any time (frame) in the phoneme section of the rating target, and it is improved by removing the duplication This algorithm is the algorithm described in this embodiment.

本アルゴリズムは、PDAPSアルゴリズムから重複処理を取り除いて改良したものであり、改良の過程で評定値の算出に動的要素を直接利用しなくなったことからPAPPS(Phonemic A Posteriori Probability based pronunciation Scoring/音韻の事後確率に基づく発音評定)と呼ぶこととする。   This algorithm has been improved by removing duplicate processing from the PDAPS algorithm, and since dynamic elements are no longer used directly in the calculation of rating values in the process of improvement, PAPPS (Phonemic A Posteriori Probability based pronunciation Scoring) This is called pronunciation evaluation based on posterior probabilities.

以下、さらに詳細に、実施の形態2で説明したPDAPSアルゴリズムと本実施の形態におけるPAPPSアルゴリズムとの違いについて述べる。PDAPSアルゴリズムは、その評定値算出過程の基礎となる数式4で示した前向き後ろ向きアルゴリズムが、前向きアルゴリズムの算出値としての前向き確率と、後ろ向きアルゴリズムの算出値としての後ろ向き確率を、掛け合わせた値としての特徴ベクトル系列と時刻「t」における状態が「j」であることの同時生起確率を、与えられたモデルパラメータの持つ全ての状態で足し合わせることで、特徴ベクトル系列の生起確率となって、時刻と状態の変数が無くなり、どの時刻でその生起確率を算出しても同じ値になるという特徴をもつために、数式3の分子と分母は評定対象音素区間の特徴ベクトル系列「O(n)」内のどの時刻においても同じ値となり、評定値も時刻の違いによる差がなくなる。さらに、前向き後ろ向きアルゴリズムを用いて特徴ベクトル系列の最終時刻「T(n)」での確率を求める場合、後ろ向きアルゴリズムは必要とせず、前向きアルゴリズムのみで求めることができる。これらの特徴を利用することでPDAPSアルゴリズムを簡略化して、高速に全く同じ評定値を算出するアルゴリズムがPAPPSである。ただし、PDASPアルゴリズムは評定対象の音素区間内では同じ値であるが時刻(フレーム)ごとに評定値を算出するが、PAPPSアルゴリズムでは評定対象の音素区間ごとに評定値を得る。 Hereinafter, the difference between the PDAPS algorithm described in the second embodiment and the PAPPS algorithm in the present embodiment will be described in more detail. The PDAPS algorithm is a value obtained by multiplying a forward probability as a calculated value of the forward algorithm and a backward probability as a calculated value of the backward algorithm as a result of the forward and backward algorithm shown in Equation 4 as a basis of the evaluation value calculation process. The occurrence probability of the feature vector sequence is obtained by adding together the co-occurrence probability that the state at time “t” is “j” with all the states of the given model parameter, Since the time and state variables are eliminated and the occurrence probability is the same value at any time, the numerator and denominator of Equation 3 have the feature vector series “O (n) of the evaluation target phoneme section. The value is the same at any time within “”, and the rating value is not different due to the difference in time. Further, when the probability at the final time “T (n) ” of the feature vector series is obtained using the forward and backward algorithm, the backward algorithm is not required and can be obtained only by the forward algorithm. PAPPS is an algorithm that simplifies the PDAPS algorithm by using these features and calculates exactly the same rating value at high speed. However, although the PDASP algorithm calculates the rating value for each time (frame) although it is the same value in the phoneme section to be evaluated, the PAPPS algorithm obtains the rating value for each phoneme section to be evaluated.

図6は、本実施の形態における発音評定装置のブロック図である。本発音評定装置は、入力受付部101、教師データ格納部102、評定対象音素系列格納部103、音声受付部104、フレーム音声データ取得部105、特徴ベクトル系列取得部106、最適状態系列取得部107、最適音素部分系列取得部108、特徴ベクトル部分系列取得部109、評定値算出部610、出力部111、最適音素代表系列取得部601を具備する。   FIG. 6 is a block diagram of the pronunciation rating device in the present embodiment. The pronunciation evaluation apparatus includes an input reception unit 101, a teacher data storage unit 102, a rating target phoneme sequence storage unit 103, a speech reception unit 104, a frame audio data acquisition unit 105, a feature vector sequence acquisition unit 106, and an optimum state sequence acquisition unit 107. An optimal phoneme partial sequence acquisition unit 108, a feature vector partial sequence acquisition unit 109, a rating value calculation unit 610, an output unit 111, and an optimal phoneme representative sequence acquisition unit 601.

最適音素代表系列取得部601は、最適音素部分系列取得部108が取得した1組以上の各最適音素部分系列に対して、音素を代表する一の代表音素を取得し、当該取得した1以上の代表音素を有する最適音素代表系列(P={P,P,・・・,P,・・・,P})を取得し、当該最適音素代表系列をメモリ上に配置する。最適音素代表系列取得部601は、例えば、3つの最適音素部分系列{{a,a,・・・,a}{o,o,・・・,o}{i,i,・・・,i}}の各最適音素部分系列に対して、{a,o,i}という3つの代表音素を有する最適音素代表系列を取得する。かかる処理は、音素のID列や音素を示す文字コード列が存在する場合の、公知の文字列処理である。最適音素代表系列取得部601は、通常、MPUやメモリ等から実現され得る。最適音素代表系列取得部601の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。 The optimal phoneme representative sequence acquisition unit 601 acquires one representative phoneme representing a phoneme for each of the one or more sets of optimal phoneme subsequences acquired by the optimal phoneme subsequence acquisition unit 108, and acquires the acquired one or more phonemes An optimal phoneme representative sequence (P = {P 1 , P 2 ,..., P n ,..., P s }) having a representative phoneme is acquired, and the optimal phoneme representative sequence is arranged in a memory. The optimal phoneme representative sequence acquisition unit 601 includes, for example, three optimal phoneme subsequences {{a, a,..., A} {o, o,..., O} {i, i,. }}, An optimal phoneme representative sequence having three representative phonemes {a, o, i} is acquired for each optimal phoneme subsequence of {}. This process is a known character string process when there is a phoneme ID string or a character code string indicating a phoneme. The optimal phoneme representative sequence acquisition unit 601 can be usually realized by an MPU, a memory, or the like. The processing procedure of the optimum phoneme representative sequence acquisition unit 601 is usually realized by software, and the software is recorded in a recording medium such as a ROM. However, it may be realized by hardware (dedicated circuit).

評定値算出部610は、音素の評定値を音素区間データから算出する。評定値算出部610は、音素区間音声データが評定対象の正解となる音素である事後確率を算出し、当該事後確率から音素の評定値を算出する。評定値算出部610は、例えば、以下の数式5、数式6により、最適音素代表系列取得部が取得した代表音素「P」ごとに、その音素に対応する特徴ベクトル部分系列取得部が取得した特徴ベクトル部分系列「O(n)」と、教師データ格納部から全ての音響モデルを読み出し、全ての音響モデルの全状態において、その状態「j」が属する音響モデルパラメータ「λP(j)」が与えられたという条件のもと、特徴ベクトル系列「O(n)」が観測され、かつそのベクトル系列の最終時刻(フレーム)「T(n)」における状態が「j」である確率を取得し、その取得した状態ごとの確率値から、全ての音素について音響モデルパラメータ「λP(j)」が与えられたという条件のもと、特徴ベクトル系列「O(n)」が観測される確率を取得し、その取得した音素ごとの確率値から、特徴ベクトル系列「O(n)」が与えられたときに、そのベクトル系列が代表音素「P」である事後確率を取得することで、音声の評定値(PAPPS(P))を算出する。評定値算出部610は、状態ごとの確率値を、バックワードアルゴリズムを用いずにフォワードアルゴリズムにより取得することは好適である。

Figure 0004859125
Figure 0004859125
The rating value calculation unit 610 calculates a phoneme rating value from phoneme interval data. The rating value calculation unit 610 calculates a posterior probability that the phoneme segment speech data is a phoneme that is a correct answer to be evaluated, and calculates a phoneme rating value from the posterior probability. For each representative phoneme “P n ” acquired by the optimal phoneme representative sequence acquisition unit, for example, the rating value calculation unit 610 acquires the feature vector partial sequence acquisition unit corresponding to the phoneme by the following formulas 5 and 6. The feature vector subsequence “O (n) ” and all acoustic models are read from the teacher data storage unit, and the acoustic model parameter “λ P (j) ” to which the state “j” belongs in all states of all acoustic models. The probability that the feature vector sequence “O (n) ” is observed and the state of the vector sequence at the final time (frame) “T (n) ” is “j” is obtained and, observation of the probability values for each the acquired state, under the condition that all of the phonemes acoustic model parameters "lambda P (j)" is given, the feature vector series "O (n) ' Get the probability that, from the probability values for each the obtained phonemes, when the feature vector sequence "O (n)" given that the vector sequence is to obtain the posterior probability is the representative phoneme "P n" The voice rating value (PAPPS (P n )) is calculated. It is preferable that the rating value calculation unit 610 obtains the probability value for each state by the forward algorithm without using the backward algorithm.
Figure 0004859125
Figure 0004859125

数式5において、「P」は最適音素代表系列の「n」番目の音素である。また、数式5において、「λ(Pn)」は音素「P」の音響モデルパラメータであり、「λP(j)」は状態「j」を含む音響モデルのパラメータである。状態「j」が音素「P」の音響モデルの持つ状態であるならば、「λP(j)」と「λ(Pn)」は同じ音響モデルのパラメータを表す。また、「M」は全ての音響モデル数であり、「N」は音響モデル全体の総状態数である。また、数式5において、「Pr(m)」は音素「m」の事前確率を表し、音響モデルパラメータ「λ(m)」の事前確率「Pr(λ(m))」を意味する(「Pr(P)」についても同様)。また、数式5において、音素の事前確率「Pr(m)」は、すべての音素において一定と仮定し、式の途中で省略している。 In Equation 5, “P n ” is the “n” -th phoneme of the optimal phoneme representative sequence. In Equation 5, “λ (Pn) ” is an acoustic model parameter of the phoneme “P n ”, and “λ P (j) ” is a parameter of the acoustic model including the state “j”. If the state “j” is the state of the acoustic model of the phoneme “P n ”, “λ P (j) ” and “λ (Pn) ” represent parameters of the same acoustic model. “M” is the number of all acoustic models, and “N” is the total number of states of the entire acoustic model. In Formula 5, “Pr (m)” represents the prior probability of the phoneme “m” and means the prior probability “Pr (λ (m))” of the acoustic model parameter “λ (m)” (“Pr”). The same applies to “(P n )”). In Formula 5, the phoneme prior probability “Pr (m)” is assumed to be constant for all phonemes, and is omitted in the middle of the formula.

また、数式6は、状態「j」が属する音響モデルパラメータ「λ(Pn)」が与えられたという条件のもと、特徴ベクトル系列「O(n)」が観測され、かつそのベクトル系列の最終時刻(フレーム)「T(n)」における状態が「j」である確率を、前向き(Forward)アルゴリズムにより算出することを示す。そして、数式5で示すPAPPS評定値算出式は、特徴ベクトル系列の最終時刻「T(n)」における数式3で示したPDAPS評定値算出式と一致する。 In addition, Equation 6 shows that the feature vector series “O (n) ” is observed under the condition that the acoustic model parameter “λ (Pn) ” to which the state “j” belongs is given, and the final of the vector series It indicates that the probability that the state at time (frame) “T (n) ” is “j” is calculated by the forward algorithm. The PAPPS rating value calculation formula shown in Formula 5 matches the PDAPS rating value calculation formula shown in Formula 3 at the final time “T (n) ” of the feature vector series.

さらに、評定値算出部610は、数式5により、音素区間ごとに算出されるPAPPS評定値をメモリ上に一時記憶し、当該音素区間ごとの評定値をパラメータにして、文章や単語ごとの評定値を算出しても良い。文章や単語ごとの評定値を算出するために、評定値算出部610は、評定対象の文章や単語を構成する音素のPAPPS評定値から平均値や中央値などを用いた算出方法で求めることは好適である。かかる場合、評定値算出部610は、最適音素部分系列取得部108が取得した各音素の最適音素部分系列の長さ(フレーム数)をパラメータとして、各音素の値を重み付けして、文章や単語の評定値を算出しても良いし、単純に各音素の評定値の平均値や中央値などの値を文章や単語全体の評定値としても良い。   Furthermore, the rating value calculation unit 610 temporarily stores the PAPPS rating value calculated for each phoneme section in the memory according to Equation 5, and uses the rating value for each phoneme section as a parameter, and the rating value for each sentence or word. May be calculated. In order to calculate a rating value for each sentence or word, the rating value calculation unit 610 can be obtained by a calculation method using an average value or a median value from PAPPS rating values of phonemes constituting the sentence or word to be rated. Is preferred. In such a case, the rating value calculation unit 610 weights the value of each phoneme using the length (number of frames) of the optimal phoneme subsequence of each phoneme acquired by the optimal phoneme subsequence acquisition unit 108 as a parameter, May be calculated, or the average value or median value of the rating values of each phoneme may be simply used as the rating value of a sentence or an entire word.

評定値算出部610は、通常、MPUやメモリ等から実現され得る。評定値算出部610の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。   The rating value calculation unit 610 can be usually realized by an MPU, a memory, or the like. The processing procedure of the rating value calculation unit 610 is usually realized by software, and the software is recorded on a recording medium such as a ROM. However, it may be realized by hardware (dedicated circuit).

次に、発音評定装置の動作について説明する。本発音評定装置の動作において、実施の形態2の発音評定装置と比較して、評定値算出処理およびその前処理が異なる。したがって、図7のフローチャートを用いて、本発音評定装置の評定値算出処理について説明する。図7のフローチャートにおいて、図3、図5のフローチャートと異なるステップについてのみ説明する。   Next, the operation of the pronunciation rating device will be described. In the operation of the pronunciation rating device, the rating value calculation process and the pre-processing thereof are different from those of the pronunciation rating device of the second embodiment. Therefore, the rating value calculation process of the pronunciation rating device will be described with reference to the flowchart of FIG. In the flowchart of FIG. 7, only steps different from those in the flowcharts of FIGS. 3 and 5 will be described.

(ステップS701)評定値算出部610は、n番目の代表音素、および最適音素部分系列が存在するか否かを判断する。n番目の代表音素等が存在すればステップS702に行き、n番目の代表音素等が存在しなければステップS709に行く。   (Step S701) The rating value calculation unit 610 determines whether the nth representative phoneme and the optimum phoneme subsequence are present. If the nth representative phoneme etc. exists, it will go to step S702, and if there is no nth representative phoneme etc., it will go to step S709.

(ステップS702)評定値算出部610は、最適音素代表系列のn番目の代表音素を取得し、メモリ上に配置する。   (Step S702) The rating value calculation unit 610 acquires the nth representative phoneme of the optimum phoneme representative sequence and places it on the memory.

(ステップS703)評定値算出部610は、n番目の特徴ベクトル部分系列を取得し、メモリ上に配置する。   (Step S703) The rating value calculation unit 610 acquires the nth feature vector partial series and places it on the memory.

(ステップS704)評定値算出部610は、特徴ベクトル部分系列の最終時刻「T(n)」での、全ての音響モデルの状態ごとの確率を、状態の属する音響モデルパラメータを用いて、前向きアルゴリズムにより算出し、バッファに格納する。なお、評定値算出部610は、上記の確率の算出前に、ステップS303で取得した音響モデルの中から、状態の属する音響モデルパラメータを取得する。 (Step S704) The rating value calculation unit 610 uses the acoustic model parameter to which the state belongs to determine the probability for each state of all acoustic models at the final time “T (n) ” of the feature vector partial series. Is calculated and stored in the buffer. Note that the rating value calculation unit 610 acquires the acoustic model parameter to which the state belongs from the acoustic model acquired in step S303 before calculating the probability.

(ステップS705)評定値算出部610は、m番目の音素の音響モデルに含まれる全状態の時刻「T(n)」における確率の総和から、m番目の音素の確率を算出する。 (Step S705) The rating value calculation unit 610 calculates the probability of the mth phoneme from the sum of the probabilities at the time “T (n) ” of all states included in the mth phoneme acoustic model.

(ステップS706)評定値算出部610は、代表音素「P」の事後確率を算出する。 (Step S706) The rating value calculation unit 610 calculates the posterior probability of the representative phoneme “P n ”.

(ステップS707)評定値算出部610は、算出した事後確率をn番目の評定値のバッファに格納する。   (Step S707) The rating value calculation unit 610 stores the calculated posterior probability in the buffer of the nth rating value.

(ステップS708)評定値算出部610は、カウンタnを1、インクリメントし、ステップS701に戻る。   (Step S708) The rating value calculation unit 610 increments the counter n by 1, and returns to step S701.

(ステップS709)評定値算出部610は、音素毎の評定値から、単語区間、文章区間の評定値を算出し、算出値をメモリ上に配置する。かかる、単語区間、文章区間の評定値の算出方法は、音素毎の評定値の各区間における平均値や中央値を算出する方法等がある。上位処理にリターンする。   (Step S709) The rating value calculation unit 610 calculates the rating value of the word section and the sentence section from the rating value for each phoneme, and arranges the calculated value on the memory. As a method of calculating the rating value of the word section and the sentence section, there is a method of calculating an average value or a median value in each section of the rating value for each phoneme. Return to upper process.

以上、本実施の形態によれば、精度の高い発音評定ができる。具体的には、本実施の形態によれば、音素単位の評定を高い精度で行うことができる。また、本実施の形態によれば、高速に音素単位の評定を高い精度で行うことができる。   As described above, according to this embodiment, it is possible to perform pronunciation evaluation with high accuracy. Specifically, according to the present embodiment, the phoneme unit can be evaluated with high accuracy. Further, according to the present embodiment, it is possible to evaluate phonemes at high speed with high accuracy.

なお、本実施の形態によれば、評定値算出部610は、数式5、6により、評定値を算出した。しかし、評定値算出部610が評定値を算出するアルゴリズムは、数式5、6によるものとは限らない。例えば、数式6は前向き(Forward)アルゴリズムにより算出された。評定値算出部610は、数式6に代えて、後向き(Backward)アルゴリズムにより算出しても良い。また、例えば、数式5の事後確率の算出において、音素としての、起こりうる全ての事象が母音の音素を表すもののみになっても良い。かかる場合、評定対象の音素は、いずれかの母音を表すもののみが許されることは明らかである。評定値算出部610は、音素区間音声データが評定対象の正解となる音素である事後確率を算出し、当該事後確率から音素の評定値を算出すれば良い。   Note that according to the present embodiment, the rating value calculation unit 610 calculates the rating value using Equations 5 and 6. However, the algorithm by which the rating value calculation unit 610 calculates the rating value is not necessarily based on the mathematical formulas 5 and 6. For example, Formula 6 was calculated by a forward algorithm. The rating value calculation unit 610 may calculate a backward algorithm instead of Equation 6. Further, for example, in the calculation of the posterior probability of Formula 5, all possible events as phonemes may be only those representing vowel phonemes. In such a case, it is clear that only the phonemes representing the vowels are allowed to be evaluated. The rating value calculation unit 610 may calculate a posterior probability that the phoneme segment speech data is a phoneme that is a correct answer to be evaluated, and calculate a phoneme rating value from the posterior probability.

また、本実施の形態において、発音評定装置が、音素毎の評定値を基にして、文章や単語の評定値を算出することは好適である。具体的には、発音評定装置は、文章や単語に含まれる音素毎の複数の評定値の平均値や中央値から評定値を算出することは好適である。   In the present embodiment, it is preferable that the pronunciation rating device calculates a rating value of a sentence or a word based on a rating value for each phoneme. Specifically, it is preferable that the pronunciation rating device calculates a rating value from an average value or a median value of a plurality of rating values for each phoneme included in a sentence or a word.

なお、本実施の形態における発音評定装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、音声の入力を受け付ける音声受付部と、前記音声受付部が受け付けた音声を、フレームに区分し、区分されたフレーム毎の音声データであるフレーム音声データを1以上得るフレーム音声データ取得部と、前記1以上のフレーム音声データから、フレーム毎の特徴ベクトルの集合である特徴ベクトル系列を取得する特徴ベクトル系列取得部と、前記特徴ベクトル系列取得部が取得した特徴ベクトル系列から、格納されている各最適音素部分系列に対応する1以上の特徴ベクトルの組である特徴ベクトル部分系列を1組以上取得する特徴ベクトル部分系列取得部と、格納されている教師データを読み出し、当該教師データを用いて、前記特徴ベクトル部分系列取得部が取得した特徴ベクトル部分系列が評定対象の音素である事後確率を算出し、当該事後確率から音声の評定値を算出する評定値算出部と、前記評定値算出部が算出した評定値を出力する出力部として機能させるためのプログラム、である。   Note that the software that realizes the pronunciation rating device in the present embodiment is the following program. In other words, this program divides a computer into a voice reception unit that receives voice input and a voice received by the voice reception unit into frames, and one or more frame voice data that is voice data for each of the divided frames. A frame audio data acquisition unit, a feature vector sequence acquisition unit that acquires a feature vector sequence that is a set of feature vectors for each frame from the one or more frame audio data, and a feature vector acquired by the feature vector sequence acquisition unit A feature vector partial sequence acquisition unit for acquiring one or more feature vector partial sequences, which are a set of one or more feature vectors corresponding to each stored optimal phoneme subsequence, and stored teacher data from the sequence; The feature vector partial sequence acquired by the feature vector partial sequence acquisition unit using the teacher data A program for calculating a posteriori probability that is a phoneme to be rated, calculating a speech rating value from the posteriori probability, and an output unit for outputting the rating value calculated by the rating value calculator .

また、上記プログラムにおいて、コンピュータを格納されている評定対象音素系列に沿った音響モデルを読み出し、当該音響モデルと、前記特徴ベクトル系列取得部が取得した特徴ベクトル系列であり、前記音響モデルに対応する特徴ベクトル系列とを比較し、フレーム毎の最適状態の集合である最適状態系列を取得する最適状態系列取得部と、前記最適状態系列取得部が取得した最適状態系列の中で、同一の音素が連続する1以上の最適音素系列を識別し、当該1以上の最適音素系列の組である最適音素部分系列を1組以上取得する最適音素部分系列取得部として、さらに機能させ、前記特徴ベクトル部分系列取得部は、前記特徴ベクトル系列取得部が取得した特徴ベクトル系列から、前記最適音素部分系列取得部が取得した各最適音素部分系列に対応する1以上の特徴ベクトルの組である特徴ベクトル部分系列を1組以上取得するように機能させるためのプログラム、であることは好適である。   Further, in the above program, the acoustic model along the evaluation target phoneme sequence stored in the computer is read, and the acoustic model and the feature vector sequence acquired by the feature vector sequence acquisition unit correspond to the acoustic model. An optimal state sequence acquisition unit that compares a feature vector sequence and acquires an optimal state sequence that is a set of optimal states for each frame, and among the optimal state sequences acquired by the optimal state sequence acquisition unit, the same phoneme The feature vector partial sequence further functions as an optimal phoneme partial sequence acquisition unit that identifies one or more continuous optimal phoneme sequences and acquires one or more optimal phoneme partial sequences that are sets of the one or more optimal phoneme sequences. The acquisition unit is configured to acquire each optimal phoneme unit acquired by the optimal phoneme subsequence acquisition unit from the feature vector sequence acquired by the feature vector sequence acquisition unit. It is preferably a program, to function so as to obtain a feature vector subsequences is a set of one or more feature vectors corresponding to the sequence one or more sets.

また、上記プログラムにおいて、前記評定値算出部が、音素区間音声データが評定対象の正解となる音素である事後確率を算出し、当該事後確率から音素の評定値を算出するように機能させるためのプログラム、であることは好適である。   Further, in the above program, the rating value calculation unit calculates a posterior probability that the phoneme segment speech data is a phoneme that is a correct answer to be evaluated, and functions to calculate a phoneme rating value from the posterior probability. A program is preferred.

また、上記プログラムにおいて、評定値算出部は、前記事後確率を、バックワードアルゴリズムを用いずにフォワードアルゴリズムにより取得するように機能させるためのプログラム、であることは好適である。
(実施の形態4)
In the above program, the rating value calculation unit is preferably a program for causing the posterior probability to be obtained by a forward algorithm without using a backward algorithm.
(Embodiment 4)

本実施の形態において、音素ごとに求めたPAPPS評定値をその評定対象音素の時間長(フレーム数)で正規化するアルゴリズムにより、文章や単語の発音評定を行う発音評定装置について説明する。本アルゴリズムを、実施の形態3におけるPAPPSに修飾子をつけてPAPPS-FN(Frame Normalized Phonemic A Posteriori Probability based pronunciation Scoring/フレーム正規化した音韻の事後確率に基づく発音評定)と呼ぶこととする。   In the present embodiment, a pronunciation evaluation apparatus that performs pronunciation evaluation of sentences and words by an algorithm that normalizes the PAPPS rating value obtained for each phoneme by the time length (number of frames) of the evaluation target phoneme will be described. This algorithm is referred to as PAPPS-FN (pronunciation based on posterior probabilities of phoneme normalized by frame normalization) by adding a modifier to PAPPS in the third embodiment.

PAPPS-FNアルゴリズムにおいて音素の評定値を得ることは、実施の形態3のPAPPSアルゴリズムと全く同様である。   Obtaining phoneme rating values in the PAPPS-FN algorithm is exactly the same as in the PAPPS algorithm of the third embodiment.

図8は、本実施の形態における発音評定装置のブロック図である。本発音評定装置は、入力受付部101、教師データ格納部102、評定対象音素系列格納部103、音声受付部104、フレーム音声データ取得部105、特徴ベクトル系列取得部106、最適状態系列取得部107、最適音素部分系列取得部108、特徴ベクトル部分系列取得部109、評定値算出部810、出力部111、最適音素代表系列取得部601、音素時間情報取得部801を具備する。   FIG. 8 is a block diagram of the pronunciation rating device in the present embodiment. The pronunciation evaluation apparatus includes an input reception unit 101, a teacher data storage unit 102, a rating target phoneme sequence storage unit 103, a speech reception unit 104, a frame audio data acquisition unit 105, a feature vector sequence acquisition unit 106, and an optimum state sequence acquisition unit 107. , An optimal phoneme subsequence acquisition unit 108, a feature vector partial sequence acquisition unit 109, a rating value calculation unit 810, an output unit 111, an optimal phoneme representative sequence acquisition unit 601, and a phoneme time information acquisition unit 801.

音素時間情報取得部801は、各最適音素部分系列の時間に関する情報である音素時間情報を取得する。音素時間情報は、例えば、単語や文章などを構成する音素のフレーム数や、時間(通常、フレーム数から算出される)である。音素時間情報は、具体的には、最適音素部分系列または特徴ベクトル部分系列の各部分系列を構成する要素数である。音素時間情報取得部801は、通常、MPUやメモリ等から実現され得る。音素時間情報取得部801の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。   The phoneme time information acquisition unit 801 acquires phoneme time information that is information regarding the time of each optimum phoneme subsequence. The phoneme time information is, for example, the number of frames of a phoneme constituting a word or a sentence, or time (usually calculated from the number of frames). More specifically, the phoneme time information is the number of elements constituting each partial sequence of the optimal phoneme partial sequence or the feature vector partial sequence. The phoneme time information acquisition unit 801 can be usually realized by an MPU, a memory, or the like. The processing procedure of the phoneme time information acquisition unit 801 is usually realized by software, and the software is recorded in a recording medium such as a ROM. However, it may be realized by hardware (dedicated circuit).

評定値算出部810は、例えば、先に示した数式5、数式6により、最適音素代表系列取得部が取得した代表音素「P」ごとに、その音素に対応する特徴ベクトル部分系列取得部が取得した特徴ベクトル部分系列「O(n)」と、教師データ格納部から全ての音響モデルを読み出し、全ての音響モデルの全状態において、その状態「j」が属する音響モデルパラメータ「λP(j)」が与えられたという条件のもと、特徴ベクトル系列「O(n)」が観測され、かつそのベクトル系列の最終時刻(フレーム)「T(n)」における状態が「j」である確率を取得し、その取得した状態ごとの確率値から、全ての音素について音響モデルパラメータ「λP(j)」が与えられたという条件のもと、特徴ベクトル系列「O(n)」が観測される確率を取得し、その取得した音素ごとの確率値から、特徴ベクトル系列「O(n)」が与えられたときに、そのベクトル系列が代表音素「P」である事後確率を取得し、当該1以上取得した事後確率と、各音素に対応する音素時間情報をパラメータとして、例えば、以下の数式7により、音声の評定値(PAPPS−FN(P))を算出する。 For each representative phoneme “P n ” acquired by the optimal phoneme representative sequence acquisition unit, for example, the rating vector calculation unit 810 uses the above-described Equations 5 and 6 to calculate the feature vector partial sequence acquisition unit corresponding to the phoneme. The acquired feature vector partial series “O (n) ” and all acoustic models are read from the teacher data storage unit, and the acoustic model parameter “λ P (j) to which the state“ j ”belongs in all states of all acoustic models. ) “”, The probability that the feature vector sequence “O (n) ” is observed and the state of the vector sequence at the final time (frame) “T (n) ” is “j”. acquires, from the probability values for each the acquired state, under the condition that all of the phonemes acoustic model parameters "lambda P (j)" is given, the feature vector series "O (n)" is observed Gets the probabilities, from the probability values for each the obtained phonemes, when the feature vector sequence "O (n)" given that vector sequence obtains a posteriori probability, which is a representative phoneme "P n", Using the one or more acquired posterior probabilities and the phoneme time information corresponding to each phoneme as parameters, for example, the speech rating value (PAPPS-FN (P)) is calculated by Equation 7 below.

評定値算出部810は、上述した数式5、6により、音素の評定値を得る。次に、評定値算出部810は、文章や単語ごとの評定値を、以下の数式7により算出する。数式7は、「音素時間長を重みとした音素評定値の加重平均」を意味する。なお、数式7において、「p」は文章や単語を構成する音素系列である。また、「P」は音素である。数式7では、評定対象となる全音声データを1つの文章や、1つの単語であると仮定して、評定対象音素系列の全音素を用いて、評定値を算出する。音声データから複数の文章や複数の単語の評定値を算出する場合は、その文章や単語を構成する音素系列ごとに算出式を適用することにより、複数の文章や複数の単語の評定値を得ることができる。

Figure 0004859125
The rating value calculation unit 810 obtains a phoneme rating value according to the above-described formulas 5 and 6. Next, the rating value calculation unit 810 calculates a rating value for each sentence or word using the following Equation 7. Formula 7 means “a weighted average of phoneme evaluation values weighted by phoneme time length”. In Equation 7, “p” is a phoneme series constituting a sentence or a word. “P n ” is a phoneme. In Equation 7, the rating value is calculated using all phonemes of the rating target phoneme series, assuming that all speech data to be rated is one sentence or one word. When calculating the rating values of multiple sentences and multiple words from speech data, obtain the rating values of multiple sentences and multiple words by applying a calculation formula to each phoneme sequence that composes the sentence or word. be able to.
Figure 0004859125

数式7において、「s」は、最適音素部分系列の個数(音素の個数)である。また、「T(n)」は、「n」番目部分系列の系列長である。 In Equation 7, “s” is the number of optimal phoneme subsequences (number of phonemes). “T (n) ” is the sequence length of the “n” th partial sequence.

評定値算出部810は、通常、MPUやメモリ等から実現され得る。評定値算出部810の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。   The rating value calculation unit 810 can be usually realized by an MPU, a memory, or the like. The processing procedure of the rating value calculation unit 810 is usually realized by software, and the software is recorded on a recording medium such as a ROM. However, it may be realized by hardware (dedicated circuit).

次に、発音評定装置の動作について図9のフローチャートを用いて説明する。図9のフローチャートの先頭のステップ(ステップS901)は、図7のフローチャートのステップS709に後続する。つまり、図9のフローチャートは、図7の全ステップを含む。   Next, the operation of the pronunciation rating device will be described with reference to the flowchart of FIG. The first step (step S901) in the flowchart in FIG. 9 follows step S709 in the flowchart in FIG. That is, the flowchart of FIG. 9 includes all the steps of FIG.

(ステップS901)評定値算出部810は、カウンタnに1を代入する。   (Step S901) The rating value calculation unit 810 substitutes 1 for a counter n.

(ステップS902)評定値算出部810は、n番目の代表音素、および最適音素部分系列が存在するか否かを判断する。n番目の代表音素等が存在すればステップS903に行き、n番目の代表音素等が存在しなければステップS908に行く。   (Step S902) The rating value calculation unit 810 determines whether the nth representative phoneme and the optimum phoneme subsequence are present. If the nth representative phoneme etc. exists, it will go to step S903, and if there is no nth representative phoneme etc., it will go to step S908.

(ステップS903)評定値算出部810は、n番目の最適音素部分系列長を取得し、メモリ上に配置する。なお、最適音素部分系列長に代えて、特徴ベクトルの部分系列長でも良い。   (Step S903) The rating value calculation unit 810 acquires the n-th optimum phoneme partial sequence length and arranges it on the memory. Note that the partial sequence length of the feature vector may be used instead of the optimal phoneme partial sequence length.

(ステップS904)評定値算出部810は、n番目の音素評定値を取得する。   (Step S904) The rating value calculation unit 810 acquires the nth phoneme rating value.

(ステップS905)評定値算出部810は、ステップS904で取得したn番目の音素評定値に、ステップS903で取得したn番目の最適音素部分系列長を乗算し、その値を分子値に加算する。   (Step S905) The rating value calculation unit 810 multiplies the nth phoneme rating value acquired in step S904 by the nth optimal phoneme partial sequence length acquired in step S903, and adds the value to the numerator value.

(ステップS906)評定値算出部810は、n番目の最適音素部分系列長を分母値に加算する。   (Step S906) The rating value calculation unit 810 adds the n-th optimal phoneme partial sequence length to the denominator value.

(ステップS907)評定値算出部810は、カウンタnを1、インクリメントし、ステップS902に戻る。   (Step S907) The rating value calculation unit 810 increments the counter n by 1, and returns to step S902.

(ステップS908)評定値算出部810は、「分子値/分母値」により、評定値を算出する。上位処理にリターンする。   (Step S908) The rating value calculation unit 810 calculates a rating value based on “numerator value / denominator value”. Return to upper process.

以上、本実施の形態によれば、単語や文章などの、ユーザが評定して欲しい評定対象の単位に好適な評価結果を精度高く得ることができる。   As described above, according to the present embodiment, it is possible to obtain a highly accurate evaluation result suitable for a unit to be rated such as a word or a sentence that the user wants to rate.

なお、本実施の形態によれば、評定値算出部810は、数式7により、評定値を算出した。しかし、評定値算出部810が評定値を算出するアルゴリズムは、数式7によるものとは限らない。評定値算出部810は、取得した1以上の各音素の評定値と、各音素に対応する音素時間情報をパラメータとして音声の評定値を算出すればよい。   According to the present embodiment, rating value calculation unit 810 calculates the rating value by Equation 7. However, the algorithm by which the rating value calculation unit 810 calculates the rating value is not always based on Equation 7. The rating value calculation unit 810 may calculate a voice rating value using the acquired rating value of one or more phonemes and phoneme time information corresponding to each phoneme as parameters.

さらに、本実施の形態における発音評定装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、音声の入力を受け付ける音声受付部と、前記音声受付部が受け付けた音声を、フレームに区分し、区分されたフレーム毎の音声データであるフレーム音声データを1以上得るフレーム音声データ取得部と、前記1以上のフレーム音声データから、フレーム毎の特徴ベクトルの集合である特徴ベクトル系列を取得する特徴ベクトル系列取得部と、前記特徴ベクトル系列取得部が取得した特徴ベクトル系列から、格納されている各最適音素部分系列に対応する1以上の特徴ベクトルの組である特徴ベクトル部分系列を1組以上取得する特徴ベクトル部分系列取得部と、格納されている教師データを読み出し、当該教師データを用いて、前記特徴ベクトル部分系列取得部が取得した特徴ベクトル部分系列が評定対象の音素である事後確率を算出し、当該事後確率から音声の評定値を算出する評定値算出部と、前記評定値算出部が算出した評定値を出力する出力部として機能させるためのプログラム、である。   Furthermore, the software that realizes the pronunciation rating device in the present embodiment is the following program. In other words, this program divides a computer into a voice reception unit that receives voice input and a voice received by the voice reception unit into frames, and one or more frame voice data that is voice data for each of the divided frames. A frame audio data acquisition unit, a feature vector sequence acquisition unit that acquires a feature vector sequence that is a set of feature vectors for each frame from the one or more frame audio data, and a feature vector acquired by the feature vector sequence acquisition unit A feature vector partial sequence acquisition unit for acquiring one or more feature vector partial sequences, which are a set of one or more feature vectors corresponding to each stored optimal phoneme subsequence, and stored teacher data from the sequence; The feature vector partial sequence acquired by the feature vector partial sequence acquisition unit using the teacher data A program for calculating a posteriori probability that is a phoneme to be rated, calculating a speech rating value from the posteriori probability, and an output unit for outputting the rating value calculated by the rating value calculator .

また、上記プログラムにおいて、コンピュータを、格納されている評定対象音素系列に沿った音響モデルを読み出し、当該音響モデルと、前記特徴ベクトル系列取得部が取得した特徴ベクトル系列であり、前記音響モデルに対応する特徴ベクトル系列とを比較し、フレーム毎の最適状態の集合である最適状態系列を取得する最適状態系列取得部と、前記最適状態系列取得部が取得した最適状態系列の中で、同一の音素が連続する1以上の最適音素系列を識別し、当該1以上の最適音素系列の組である最適音素部分系列を1組以上取得する最適音素部分系列取得部として、さらに機能させ、前記特徴ベクトル部分系列取得部は、前記特徴ベクトル系列取得部が取得した特徴ベクトル系列から、前記最適音素部分系列取得部が取得した各最適音素部分系列に対応する1以上の特徴ベクトルの組である特徴ベクトル部分系列を1組以上取得するように機能させるためのプログラム、であることは好適である。   In the above program, the computer reads out the acoustic model along the stored phoneme series to be evaluated, and the acoustic model and the feature vector series acquired by the feature vector series acquisition unit, corresponding to the acoustic model And an optimal state sequence acquisition unit that acquires an optimal state sequence that is a set of optimal states for each frame, and the same phoneme in the optimal state sequence acquired by the optimal state sequence acquisition unit Are further functioned as an optimal phoneme subsequence acquisition unit that identifies one or more optimal phoneme sequences that are consecutive, and acquires one or more optimal phoneme subsequences that are a set of the one or more optimal phoneme sequences, The sequence acquisition unit is configured to obtain each optimum phoneme acquired by the optimal phoneme subsequence acquisition unit from the feature vector sequence acquired by the feature vector sequence acquisition unit. Program for operating such a set feature vectors subsequences is one or more feature vectors corresponding to the partial sequence to obtain one or more sets that, is is preferred.

また、上記プログラムにおいて、コンピュータを、前記評定値算出部を、フレーム毎または音素毎の前記評定値を基にして、文章や単語の評定値を算出するように機能させるためのプログラム、であることは好適である。   Further, in the above program, the computer is a program for causing the rating value calculation unit to function to calculate a rating value of a sentence or a word based on the rating value for each frame or phoneme. Is preferred.

また、上記プログラムにおいて、コンピュータを、各音素の時間に関する情報である音素時間情報を取得する音素時間情報取得部としてさらに機能させ、前記評定値算出部が、音素時間長を重みとした音素の評定値の加重平均を算出し、当該加重平均から文章または単語の評定値を算出するように機能させるためのプログラム、であることは好適である。   Further, in the above program, the computer is further caused to function as a phoneme time information acquisition unit that acquires phoneme time information that is information related to the time of each phoneme, and the rating value calculation unit evaluates the phoneme with the phoneme time length as a weight. It is preferable that the program is a program for calculating a weighted average of values and functioning to calculate a rating value of a sentence or a word from the weighted average.

以下に、上記の実施の形態にかかる発音評定装置について、実験を行った結果について述べる。なお、下記の実験を行ったのは、PDAPS-PE、PDAPS、PAPPSの3つのアルゴリズムを実装する発音評定装置である。   The results of experiments conducted on the pronunciation rating device according to the above embodiment will be described below. The following experiment was conducted on a pronunciation rating device that implements three algorithms: PDAPS-PE, PDAPS, and PAPPS.

(実験1)
まず、日本人女性6人、日本人男性5人、英語ネイティブ男性2人に英語の文章および単語を発音してもらい、その音声を音声受付部104が受け付け、各アルゴリズムを実装する発音評定装置が発音評定を行った。そのアルゴリズムは、t-p-DAP(全時間区間の平均値を用いたもの)、t-p-DAP-PM(音素時間区間での中央値を音素数で平均したもの)、PDAPS-PE(全時間区間の平均値を用いたもの)、PDAPS(全時間区間の平均値を用いたもの)、PAPPS(音素評定値の平均値)のアルゴリズムである。そして、発音評定装置は、各アルゴリズムで求めた文章の評定値および単語の評定値の平均値を算出し、出力する。図10は、各アルゴリズムの比較結果を示す表の集合である。なお、t-p-DAPは、特許文献1で説明されている公知のアルゴリズムである。t-p-DAP-PMは、t-p-DAPのアルゴリズムでフレームごとに出力される評定値の音素時間区間での中央値を音素数で平均したものである。なお、「PM」は「Phoneme Median」を意味する。なお、PAPPS-FNアルゴリズムに関しては出力する評定値がPDAPSアルゴリズムを用いた文章・単語の評定値と全く一致するので図10等の比較対照に含めなかった。
(Experiment 1)
First, there are six Japanese women, five Japanese men, and two English native men who pronounce English sentences and words. The voice reception unit 104 receives the voices, and the pronunciation rating device that implements each algorithm Pronunciation evaluation was performed. The algorithms are tp-DAP (using the average value of all time intervals), tp-DAP-PM (average of phoneme time intervals by phoneme number), PDAPS-PE (all time intervals) This is an algorithm using average values), PDAPS (using average values for all time intervals), and PAPPS (average phoneme evaluation values). Then, the pronunciation rating device calculates and outputs the average value of the sentence rating value and the word rating value obtained by each algorithm. FIG. 10 is a set of tables showing the comparison results of the algorithms. Note that tp-DAP is a known algorithm described in Patent Document 1. The tp-DAP-PM is an average of the median values in the phoneme time interval of the rating values output for each frame by the tp-DAP algorithm by the number of phonemes. “PM” means “Phoneme Median”. Note that the PAPPS-FN algorithm was not included in the comparison control in FIG. 10 and the like because the rating value to be output was exactly the same as the rating value of sentences / words using the PDAPS algorithm.

図10(a)は、全話者での平均値を示す。図10(b)は、Native話者での平均値を示す。図10(c)は、日本人話者での平均値を示す。図11(a)は、タスク1での平均値を示す。図11(b)は、タスク2での平均値を示す。図10から図13において、「%」で示される値は、比較されるアルゴリズムで算出した評定値の値の割合を示す。   FIG. 10A shows an average value for all speakers. FIG.10 (b) shows the average value in a Native speaker. FIG.10 (c) shows the average value in a Japanese speaker. FIG. 11A shows an average value in the task 1. FIG. 11B shows an average value in the task 2. 10 to 13, the value indicated by “%” indicates the ratio of the rating value calculated by the compared algorithm.

図10、図11から、全てにおいて、t-p-DAP-PM < t-p-DAP < PDAPS-PE < PAPPS < PDAPSとなる結果を得た。なお、タスクとは話者が発音している文章や単語の種類を表す。つまり、タスク1とタスク2は、異なる文章や単語である。   From FIG. 10 and FIG. 11, in all cases, the results of t−p−DAP−PM <t−p−DAP <PDAPS−PE <PAPPS <PDAPS were obtained. The task represents the type of sentence or word that the speaker is pronounced. That is, task 1 and task 2 are different sentences and words.

そして、図10、図11の結果の中では特にNative話者での平均値に関する大小関係が重要となる。本来それを教師としているので、Native話者の発音に対して、発音評定装置は満点を出力することが望ましい。しかし現実的には発音評定装置が教師としているモデル話者と、評定対象の話者が異なる場合は、話者性の違いなどで常に満点を出力することは難しい。さらにそのモデル話者の発音を録音した環境(場所やマイク)と評定対象の発音の録音環境との違いによっても常に満点を出力することは難しくなる。ただし同じモデル話者を用いて同じ評定対象音声を評定する場合、その違いはアルゴリズムによるもののみとなり、この場合Native話者の発音に対してはより高得点を出力できるアルゴリズムの方が、より望ましいといえる。このような理由から、特許文献1で説明しているDAP、p-DAPアルゴリズムよりも、今回発明したPDAPS-PE、PDAPS、PAPPS、PAPPS-FNアルゴリズムの方がより良い発音評定アルゴリズムであるといえる。   Among the results shown in FIGS. 10 and 11, the magnitude relationship regarding the average value among the Native speakers is particularly important. Since it is originally a teacher, it is desirable for the pronunciation rating device to output a perfect score for the pronunciation of Native speakers. However, in reality, if the model speaker that is the teacher of the pronunciation rating device is different from the speaker to be rated, it is difficult to always output a perfect score due to differences in speaker characteristics. Furthermore, it is difficult to always output a perfect score due to the difference between the recording environment of the model speaker's pronunciation (location or microphone) and the recording environment of the pronunciation to be rated. However, when evaluating the same speech to be evaluated using the same model speaker, the difference is only due to the algorithm. In this case, an algorithm that can output a higher score for the pronunciation of the Native speaker is more desirable. It can be said. For these reasons, it can be said that the PDAPS-PE, PDAPS, PAPPS, and PAPPS-FN algorithms invented this time are better pronunciation rating algorithms than the DAP and p-DAP algorithms described in Patent Document 1. .

(実験2)
実験1においては、Native話者に対する評定値の比較結果から、PDAPS-PE、PDAPS、PAPPS、PAPPS-FNアルゴリズムが良好な値を出力することが明らかとなった。しかしその実験では、Native話者の数が2人であることから、十分なデータ量であったとはいえない。そこで続く実験として、英語の文章および単語を発音した英語ネイティブ多数話者の音声データベースを用いて、t-p-DAP、PDAPS-PE、PDAPS、PAPPSアルゴリズムで求めた文章および単語評定値の平均値の比較を行った。なお、この音声データベースは、男女合わせて221人が総発音データ数193427の音声を入力し、音声受付部104がかかる音声データを受け付け、音声データベース(記憶媒体)に蓄積したものである。そして、発音評定装置は、音声データベースの音声データを読み出し、発音評定を行う。かかる実験結果を、図12に示す。
(Experiment 2)
In Experiment 1, it was clarified that the PDAPS-PE, PDAPS, PAPPS, and PAPPS-FN algorithms output favorable values from the comparison results of the rating values for Native speakers. However, in the experiment, the number of Native speakers is two, so it cannot be said that the amount of data was sufficient. As a subsequent experiment, we used a speech database of English native speakers who pronounced English sentences and words, and compared the average values of sentences and word ratings obtained with the tp-DAP, PDAPS-PE, PDAPS, and PAPPS algorithms. Went. The voice database is a database in which 221 people, both men and women, input a total of 193427 voices, and the voice receiving unit 104 receives the voice data and stores it in the voice database (storage medium). Then, the pronunciation rating device reads voice data from the voice database and performs pronunciation rating. The experimental results are shown in FIG.

図12によれば、全ての発音の平均評定値で、t-p-DAP < PDAPS-PE < PAPPS < PDAPSとなる結果を得ることができ、PDAPS-PE、PDAPS、PAPPS、PAPPS-FNアルゴリズムが、従来のp-DAPアルゴリズムよりもNative話者に対する評定値では、良好な結果を出力することが確認できた。   According to FIG. 12, it is possible to obtain a result of tp-DAP <PDAPS-PE <PAPPS <PDAPS with an average rating value of all pronunciations. It was confirmed that the evaluation value for Native speakers was better than that of the p-DAP algorithm.

また、実験2では、全ての発音データを評定するのに要する処理時間を計測し、t-p-DAP > PDAPS-PE > PDAPS > PAPPSとなる結果を得ることができた。   In Experiment 2, the processing time required to evaluate all pronunciation data was measured, and a result of t-p-DAP> PDAPS-PE> PDAPS> PAPPS could be obtained.

(実験3)
実験1ならびに実験2で確認してきたことは、正しい発音に対して、より高得点を出力できるかということであった。しかし、それだけでは良好な発音評定アルゴリズムとしての性質を完全に満たすことはできていない。間違った発音に対しても、例えば、全く言語として理解不能な内容の発音であろうとも、高得点を出力してしまう可能性があるからである。
(Experiment 3)
What has been confirmed in Experiment 1 and Experiment 2 is whether a higher score can be output for correct pronunciation. However, that alone does not completely satisfy the properties of a good pronunciation rating algorithm. This is because there is a possibility that a high score will be output even if the pronunciation is wrong, for example, even if the pronunciation has a content that is completely incomprehensible as a language.

そこで、実験3において、日本人多数話者が、完全に正しいとはいいきれない英語の文章および単語を発音し、発音評定装置が当該音声を受け付け、発音評定を行った。そして、t-p-DAP、PDAPS-PE、PDAPS、PAPPSアルゴリズムで求めた文章および単語評定値の平均値の比較を行ったものが図13(a)である。   Therefore, in Experiment 3, a large number of Japanese speakers pronounced English sentences and words that were not completely correct, and the pronunciation rating device accepted the speech and performed pronunciation rating. FIG. 13A shows a comparison of the average values of sentences and word rating values obtained by t-p-DAP, PDAPS-PE, PDAPS, and PAPPS algorithms.

また、図13(b)に、ヒューマンレーティングスコアと発音評定アルゴリズムにより算出するスコアとの相関係数を示す。相関係数を調べることで、人間の感覚との近さを計測し、相関が高いものほどより良好な評定値を出力するアルゴリズムであるということを確認できる。なお、ヒューマンレーティングスコアとは、人手により採点した発音評定値である。   FIG. 13B shows a correlation coefficient between the human rating score and the score calculated by the pronunciation rating algorithm. By examining the correlation coefficient, it is possible to confirm that an algorithm that measures the proximity to human senses and outputs a better rating value as the correlation is higher. The human rating score is a pronunciation rating value manually scored.

実験3の結果、平均値の関係からは、実験1、2と同じく新たなアルゴリズム(PDAPS-PE、PDAPS、PAPPS)の方が高得点となった。ヒューマンレーティングスコアとの相関係数(図13(b))を見ると、いままで利用してきたp-DAPアルゴリズムよりも新たなアルゴリズムの方が高い相関を示す結果となり、より良い発音評定アルゴリズムであることが確認できた。さらに、相関係数の新たなアルゴリズム間での関係において、平均値の関係とは違う関係を見ることができた。平均値ではPDAPSアルゴリズムが最も高い値を出力していたが、相関係数ではPAPPSアルゴリズムが最も高い値を得ている。このことは、PAPPSアルゴリズムが、間違った(完全に正しくない)発音に対しても、より正確に評定値を算出していることを示し、人間の感覚にも近い評定値を算出できるアルゴリズムであるといえる。   As a result of Experiment 3, the new algorithm (PDAPS-PE, PDAPS, PAPPS) scored higher in the same way as Experiments 1 and 2 in terms of the average value. Looking at the correlation coefficient with the human rating score (FIG. 13B), the new algorithm shows a higher correlation than the p-DAP algorithm used so far, and is a better pronunciation rating algorithm. I was able to confirm. Furthermore, in the relationship between the new algorithms for the correlation coefficient, we were able to see a relationship different from the average value relationship. In terms of average value, the PDAPS algorithm output the highest value, but the PAPPS algorithm obtained the highest value in the correlation coefficient. This indicates that the PAPPS algorithm calculates the rating value more accurately even for wrong (completely incorrect) pronunciation, and is an algorithm that can calculate a rating value that is close to the human sense. It can be said.

以上の実験結果から、本明細書で説明した発音評定アルゴリズムPDAPS-PE、PDAPS、PAPPS、PAPPS-FNが、公知のp-DAPアルゴリズムよりも優れていることを示した。   From the above experimental results, it was shown that the pronunciation rating algorithms PDAPS-PE, PDAPS, PAPPS, and PAPPS-FN described in this specification are superior to the known p-DAP algorithm.

また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。   In each of the above embodiments, each process (each function) may be realized by centralized processing by a single device (system), or by distributed processing by a plurality of devices. May be.

また、図14は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の発音評定装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図14は、このコンピュータシステム340の概観図であり、図15は、コンピュータシステム340のブロック図である。   FIG. 14 shows the external appearance of a computer that executes the program described in this specification to realize the pronunciation rating device of the various embodiments described above. The above-described embodiments can be realized by computer hardware and a computer program executed thereon. FIG. 14 is an overview diagram of the computer system 340, and FIG. 15 is a block diagram of the computer system 340.

図14において、コンピュータシステム340は、FD(Flexible Disk)ドライブ、CD−ROM(Compact Disk Read Only Memory)ドライブを含むコンピュータ341と、キーボード342と、マウス343と、モニタ344と、マイク345とを含む。   In FIG. 14, a computer system 340 includes a computer 341 including an FD (Flexible Disk) drive and a CD-ROM (Compact Disk Read Only Memory) drive, a keyboard 342, a mouse 343, a monitor 344, and a microphone 345. .

図15において、コンピュータ341は、FDドライブ3411、CD−ROMドライブ3412に加えて、CPU(Central Processing Unit)3413と、CD−ROMドライブ3412及びFDドライブ3411に接続されたバス3414と、ブートアッププログラム等のプログラムを記憶するためのROM(Read−Only Memory)3415と、CPU3413に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM(Random Access Memory)3416と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3417とを含む。ここでは、図示しないが、コンピュータ341は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。   In FIG. 15, in addition to the FD drive 3411 and the CD-ROM drive 3412, a computer 341 includes a CPU (Central Processing Unit) 3413, a bus 3414 connected to the CD-ROM drive 3412 and the FD drive 3411, and a boot-up program. ROM (Read-Only Memory) 3415 for storing programs such as a RAM, and a RAM (Random Access Memory) 3416 connected to the CPU 3413 for temporarily storing application program instructions and providing a temporary storage space , An application program, a system program, and a hard disk 3417 for storing data. Although not shown here, the computer 341 may further include a network card that provides connection to the LAN.

コンピュータシステム340に、上述した実施の形態の発音評定装置の機能を実行させるプログラムは、CD−ROM3501、またはFD3502に記憶されて、CD−ROMドライブ3412またはFDドライブ3411に挿入され、さらにハードディスク3417に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ341に送信され、ハードディスク3417に記憶されても良い。プログラムは実行の際にRAM3416にロードされる。プログラムは、CD−ROM3501、FD3502またはネットワークから直接、ロードされても良い。   A program that causes the computer system 340 to execute the functions of the pronunciation rating device of the above-described embodiment is stored in the CD-ROM 3501 or the FD 3502, inserted into the CD-ROM drive 3412 or the FD drive 3411, and further stored in the hard disk 3417. May be forwarded. Alternatively, the program may be transmitted to the computer 341 via a network (not shown) and stored in the hard disk 3417. The program is loaded into the RAM 3416 at the time of execution. The program may be loaded directly from the CD-ROM 3501, the FD 3502, or the network.

プログラムは、コンピュータ341に、上述した実施の形態の発音評定装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム340がどのように動作するかは周知であり、詳細な説明は省略する。   The program does not necessarily include an operating system (OS), a third-party program, or the like that causes the computer 341 to execute the function of the pronunciation rating device of the above-described embodiment. The program only needs to include an instruction portion that calls an appropriate function (module) in a controlled manner and obtains a desired result. How the computer system 340 operates is well known and will not be described in detail.

また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。   Further, the computer that executes the program may be singular or plural. That is, centralized processing may be performed, or distributed processing may be performed.

また、上記各実施の形態において、一の装置に存在する2以上の通信手段(情報送信部など)は、物理的に一の媒体で実現されても良いことは言うまでもない。   Further, in each of the above embodiments, it goes without saying that two or more communication means (such as an information transmission unit) existing in one apparatus may be physically realized by one medium.

本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。   The present invention is not limited to the above-described embodiments, and various modifications are possible, and it goes without saying that these are also included in the scope of the present invention.

以上のように、本発明にかかる発音評定装置は、精度の高い発音評定ができるという効果を有し、語学学習支援装置等として有用である。   As described above, the pronunciation rating device according to the present invention has an effect that the pronunciation rating can be performed with high accuracy, and is useful as a language learning support device or the like.

実施の形態1における発音評定装置のブロック図Block diagram of the pronunciation rating device in the first embodiment 同発音評定装置の動作について説明するフローチャートFlow chart explaining the operation of the pronunciation rating device 同評定値算出処理について説明するフローチャートFlow chart explaining the rating value calculation process 実施の形態2における発音評定装置のブロック図Block diagram of the pronunciation rating device in the second embodiment 同評定値算出処理の動作について説明するフローチャートA flowchart for explaining the operation of the rating value calculation process 実施の形態3における発音評定装置のブロック図Block diagram of the pronunciation rating device in the third embodiment 同評定値算出処理の動作について説明するフローチャートA flowchart for explaining the operation of the rating value calculation process 実施の形態4における発音評定装置のブロック図Block diagram of the pronunciation rating device in the fourth embodiment 同発音評定装置の動作について説明するフローチャートFlow chart explaining the operation of the pronunciation rating device 同実験結果の表を示す図Figure showing a table of the experimental results 同実験結果の表を示す図Figure showing a table of the experimental results 同実験結果の表を示す図Figure showing a table of the experimental results 同実験結果の表を示す図Figure showing a table of the experimental results 同発音評定装置を実現するコンピュータの外観図External view of a computer that realizes the same pronunciation rating device 同発音評定装置を実現するコンピュータシステムのブロック図Block diagram of a computer system that realizes the same pronunciation rating device

符号の説明Explanation of symbols

101 入力受付部
102 教師データ格納部
103 評定対象音素系列格納部
104 音声受付部
105 フレーム音声データ取得部
106 特徴ベクトル系列取得部
107 最適状態系列取得部
108 最適音素部分系列取得部
109 特徴ベクトル部分系列取得部
110、410、610、810 評定値算出部
111 出力部
601 音素代表系列取得部
801 音素時間情報取得部
DESCRIPTION OF SYMBOLS 101 Input reception part 102 Teacher data storage part 103 Evaluation object phoneme series storage part 104 Voice reception part 105 Frame audio | voice data acquisition part 106 Feature vector series acquisition part 107 Optimal state series acquisition part 108 Optimal phoneme partial series acquisition part 109 Feature vector partial series Acquisition unit 110, 410, 610, 810 Rating value calculation unit 111 Output unit 601 Phoneme representative sequence acquisition unit 801 Phoneme time information acquisition unit

Claims (9)

1以上の音素毎の音響モデルである教師データを1以上格納している教師データ格納部と、
評定対象の2以上の音素の並びであり、同一の音素が連続する1以上の最適音素系列の集合である最適音素部分系列を1組以上格納している最適音素部分系列格納部と、
音声の入力を受け付ける音声受付部と、
前記音声受付部が受け付けた音声を、フレームに区分し、区分されたフレーム毎の音声データであるフレーム音声データを1以上得るフレーム音声データ取得部と、
前記1以上のフレーム音声データから、フレーム毎の特徴ベクトルの集合である特徴ベクトル系列を取得する特徴ベクトル系列取得部と、
前記特徴ベクトル系列取得部が取得した特徴ベクトル系列から、前記最適音素部分系列格納部の各最適音素部分系列に対応する1以上の特徴ベクトルの組である特徴ベクトル部分系列を1組以上取得する特徴ベクトル部分系列取得部と、
前記教師データ格納部から教師データを読み出し、当該教師データを用いて、前記特徴ベクトル部分系列取得部が取得した特徴ベクトル部分系列が評定対象の音素である事後確率を算出し、当該事後確率から音声の評定値を算出する評定値算出部と、
前記評定値算出部が算出した評定値を出力する出力部を具備する発音評定装置。
A teacher data storage unit that stores one or more teacher data that is an acoustic model of one or more phonemes;
An optimal phoneme subsequence storage unit that stores one or more optimal phoneme subsequences that are sets of one or more optimal phoneme sequences that are sequences of two or more phonemes to be rated, and the same phonemes are continuous;
A voice reception unit for receiving voice input;
The voice received by the voice receiving unit is divided into frames, and a frame voice data acquisition unit that obtains one or more frame voice data that is voice data for each divided frame;
A feature vector sequence acquisition unit that acquires a feature vector sequence that is a set of feature vectors for each frame from the one or more frame audio data;
A feature that acquires one or more sets of feature vector partial sequences that are sets of one or more feature vectors corresponding to each optimum phoneme partial sequence in the optimum phoneme partial sequence storage unit from the feature vector sequence acquired by the feature vector sequence acquisition unit A vector subsequence acquisition unit;
The teacher data is read from the teacher data storage unit, and using the teacher data, a posterior probability that the feature vector partial sequence acquired by the feature vector partial sequence acquisition unit is a phoneme to be evaluated is calculated. A rating value calculation unit for calculating the rating value of
A pronunciation rating device including an output unit that outputs a rating value calculated by the rating value calculation unit.
評定対象の2以上の音素の並びの情報である評定対象音素系列を格納している評定対象音素系列格納部と、
前記評定対象音素系列に沿った音響モデルを前記教師データ格納部から読み出し、当該音響モデルと、前記特徴ベクトル系列取得部が取得した特徴ベクトル系列であり、前記音響モデルに対応する特徴ベクトル系列とを比較し、フレーム毎の最適状態の集合である最適状態系列を取得する最適状態系列取得部と、
前記最適状態系列取得部が取得した最適状態系列の中で、同一の音素が連続する1以上の最適音素系列を識別し、当該1以上の最適音素系列の集合である最適音素部分系列を1組以上取得する最適音素部分系列取得部をさらに具備し、
前記特徴ベクトル部分系列取得部は、
前記特徴ベクトル系列取得部が取得した特徴ベクトル系列から、前記最適音素部分系列取得部が取得した各最適音素部分系列に対応する1以上の特徴ベクトルの組である特徴ベクトル部分系列を1組以上取得する請求項1記載の発音評定装置。
A rating-target phoneme sequence storage unit that stores a rating-target phoneme sequence that is information on a sequence of two or more phonemes to be rated;
An acoustic model along the evaluation target phoneme sequence is read from the teacher data storage unit, and the acoustic model is a feature vector sequence acquired by the feature vector sequence acquisition unit, and a feature vector sequence corresponding to the acoustic model. An optimal state sequence acquisition unit that compares and acquires an optimal state sequence that is a set of optimal states for each frame;
Among the optimum state sequences acquired by the optimum state sequence acquisition unit, one or more optimum phoneme sequences in which the same phoneme continues are identified, and one set of optimum phoneme subsequences that is a set of the one or more optimum phoneme sequences Further comprising an optimal phoneme subsequence acquisition unit for acquiring the above,
The feature vector subsequence acquisition unit
One or more feature vector partial sequences that are sets of one or more feature vectors corresponding to each optimum phoneme partial sequence acquired by the optimum phoneme partial sequence acquisition unit are acquired from the feature vector sequence acquired by the feature vector sequence acquisition unit. The pronunciation rating device according to claim 1.
前記評定値算出部は、
全ての音響モデルである教師データが与えられたという条件のもと、音素区間音声データの時刻ごとに、当該音素区間音声データが、評定対象の正解となる音素に対応した音響モデルの持つ状態である事後確率を算出し、当該事後確率から音素の評定値を算出する請求項1または請求項2記載の発音評定装置。
The rating value calculation unit
Under the condition that all acoustic models are provided as teacher data, the phoneme segment speech data is in the state of the acoustic model corresponding to the correct phoneme to be evaluated for each time of the phoneme segment speech data. 3. The pronunciation rating apparatus according to claim 1, wherein a certain posterior probability is calculated, and a phoneme rating value is calculated from the posterior probability.
前記評定値算出部は、
音素区間音声データの時刻ごとに、音素区間音声データが評定対象の正解となる音素である事後確率を算出し、当該事後確率から音素の評定値を算出する請求項1記載または請求項2記載の発音評定装置。
The rating value calculation unit
3. The phoneme section speech data is calculated for each time of the phoneme section speech data, a posterior probability that the phoneme section speech data is a correct phoneme to be evaluated, and a phoneme rating value is calculated from the posterior probability. Pronunciation rating device.
前記評定値算出部は、
音素区間音声データが評定対象の正解となる音素である事後確率を算出し、当該事後確率から音素の評定値を算出する
請求項1または請求項2記載の発音評定装置。
The rating value calculation unit
The phonetic rating device according to claim 1 or 2, wherein the phoneme interval speech data calculates a posterior probability that is a correct phoneme to be evaluated, and calculates a phoneme rating value from the posterior probability.
前記評定値算出部は、
フレーム毎または音素毎の前記評定値を基にして、文章や単語の評定値を算出する請求項1から請求項5いずれか記載の発音評定装置。
The rating value calculation unit
6. The pronunciation rating device according to claim 1, wherein a rating value of a sentence or a word is calculated based on the rating value for each frame or phoneme.
各音素の時間に関する情報である音素時間情報を取得する音素時間情報取得部をさらに具備し、
前記評定値算出部は、
音素時間長を重みとした音素の評定値の加重平均を算出し、当該加重平均から文章または単語の評定値を算出する請求項6記載の発音評定装置。
Further comprising a phoneme time information acquisition unit for acquiring phoneme time information that is information about the time of each phoneme;
The rating value calculation unit
7. The pronunciation rating apparatus according to claim 6, wherein a weighted average of phoneme rating values with a phoneme time length as a weight is calculated, and a rating value of a sentence or a word is calculated from the weighted average.
記録媒体に、
1以上の音素毎の音響モデルである1以上の教師データと、
評定対象の2以上音素の並びであり、同一の音素が連続する1以上の最適音素系列の集合である1組以上の最適音素部分系列を格納しており、
コンピュータを、
音声の入力を受け付ける音声受付部と、
前記音声受付部が受け付けた音声を、フレームに区分し、区分されたフレーム毎の音声データであるフレーム音声データを1以上得るフレーム音声データ取得部と、
前記1以上のフレーム音声データから、フレーム毎の特徴ベクトルの集合である特徴ベクトル系列を取得する特徴ベクトル系列取得部と、
前記特徴ベクトル系列取得部が取得した特徴ベクトル系列から、前記記録媒体に格納されている各最適音素部分系列に対応する1以上の特徴ベクトルの組である特徴ベクトル部分系列を1組以上取得する特徴ベクトル部分系列取得部と、
前記記録媒体に格納されている教師データを読み出し、当該教師データを用いて、前記特徴ベクトル部分系列取得部が取得した特徴ベクトル部分系列が評定対象の音素である事後確率を算出し、当該事後確率から音声の評定値を算出する評定値算出部と、
前記評定値算出部が算出した評定値を出力する出力部として機能させるためのプログラム。
On the recording medium,
One or more teacher data that is an acoustic model for one or more phonemes;
One or more optimal phoneme subsequences that are sets of one or more optimal phoneme sequences in which two or more phonemes to be rated are arranged and the same phoneme continues are stored.
Computer
A voice reception unit for receiving voice input;
The voice received by the voice receiving unit is divided into frames, and a frame voice data acquisition unit that obtains one or more frame voice data that is voice data for each divided frame;
A feature vector sequence acquisition unit that acquires a feature vector sequence that is a set of feature vectors for each frame from the one or more frame audio data;
A feature that acquires one or more sets of feature vector partial sequences that are sets of one or more feature vectors corresponding to each optimum phoneme partial sequence stored in the recording medium from the feature vector sequence acquired by the feature vector sequence acquisition unit. A vector subsequence acquisition unit;
Reading the teacher data stored in the recording medium, and using the teacher data, calculate a posterior probability that the feature vector partial sequence acquired by the feature vector partial sequence acquisition unit is a phoneme to be evaluated, and the posterior probability A rating value calculation unit for calculating a rating value of voice from
A program for functioning as an output unit that outputs a rating value calculated by the rating value calculation unit.
前記記憶媒体に、
評定対象の2以上の音素の並びの情報である評定対象音素系列をさらに格納しており、
コンピュータを、
前記記憶媒体に格納されている評定対象音素系列に沿った音響モデルを読み出し、当該音響モデルと、前記特徴ベクトル系列取得部が取得した特徴ベクトル系列であり、前記音響モデルに対応する特徴ベクトル系列とを比較し、フレーム毎の最適状態の集合である最適状態系列を取得する最適状態系列取得部と、
前記最適状態系列取得部が取得した最適状態系列の中で、同一の音素が連続する1以上の最適音素系列を識別し、当該1以上の最適音素系列の集合である最適音素部分系列を1組以上取得する最適音素部分系列取得部として、さらに機能させ、
前記特徴ベクトル部分系列取得部は、
前記特徴ベクトル系列取得部が取得した特徴ベクトル系列から、前記最適音素部分系列取得部が取得した各最適音素部分系列に対応する1以上の特徴ベクトルの組である特徴ベクトル部分系列を1組以上取得するように機能させるための請求項8記載のプログラム。
In the storage medium,
It further stores a phoneme series to be graded, which is information on the arrangement of two or more phonemes to be graded,
Computer
An acoustic model along the evaluation target phoneme sequence stored in the storage medium is read, and the acoustic model is a feature vector sequence acquired by the feature vector sequence acquisition unit, and a feature vector sequence corresponding to the acoustic model And obtaining an optimum state sequence that is a set of optimum states for each frame,
Among the optimum state sequences acquired by the optimum state sequence acquisition unit, one or more optimum phoneme sequences in which the same phoneme continues are identified, and one set of optimum phoneme subsequences that is a set of the one or more optimum phoneme sequences Further function as an optimal phoneme subsequence acquisition unit to acquire the above,
The feature vector subsequence acquisition unit
One or more feature vector partial sequences that are sets of one or more feature vectors corresponding to each optimum phoneme partial sequence acquired by the optimum phoneme partial sequence acquisition unit are acquired from the feature vector sequence acquired by the feature vector sequence acquisition unit. 9. The program according to claim 8, wherein the program is made to function as follows.
JP2007027903A 2007-02-07 2007-02-07 Pronunciation rating device and program Active JP4859125B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007027903A JP4859125B2 (en) 2007-02-07 2007-02-07 Pronunciation rating device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007027903A JP4859125B2 (en) 2007-02-07 2007-02-07 Pronunciation rating device and program

Publications (2)

Publication Number Publication Date
JP2008191551A JP2008191551A (en) 2008-08-21
JP4859125B2 true JP4859125B2 (en) 2012-01-25

Family

ID=39751687

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007027903A Active JP4859125B2 (en) 2007-02-07 2007-02-07 Pronunciation rating device and program

Country Status (1)

Country Link
JP (1) JP4859125B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6314884B2 (en) * 2015-03-25 2018-04-25 ブラザー工業株式会社 Reading aloud evaluation device, reading aloud evaluation method, and program
CN113053414A (en) * 2019-12-26 2021-06-29 航天信息股份有限公司 Pronunciation evaluation method and device
CN111861587A (en) * 2020-08-04 2020-10-30 上海积成能源科技有限公司 System and method for analyzing residential electricity consumption behavior based on hidden Markov model and forward algorithm
CN111968678B (en) * 2020-09-11 2024-02-09 腾讯科技(深圳)有限公司 Audio data processing method, device, equipment and readable storage medium
CN113506563A (en) * 2021-07-06 2021-10-15 北京一起教育科技有限责任公司 Pronunciation recognition method and device and electronic equipment

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3520022B2 (en) * 2000-01-14 2004-04-19 株式会社国際電気通信基礎技術研究所 Foreign language learning device, foreign language learning method and medium
JP4775788B2 (en) * 2005-01-20 2011-09-21 株式会社国際電気通信基礎技術研究所 Pronunciation rating device and program
JP5007401B2 (en) * 2005-01-20 2012-08-22 株式会社国際電気通信基礎技術研究所 Pronunciation rating device and program
JP2006208644A (en) * 2005-01-27 2006-08-10 Toppan Printing Co Ltd Server system and method for measuring linguistic speaking ability

Also Published As

Publication number Publication date
JP2008191551A (en) 2008-08-21

Similar Documents

Publication Publication Date Title
JP3933750B2 (en) Speech recognition method and apparatus using continuous density Hidden Markov model
CN110675855B (en) Voice recognition method, electronic equipment and computer readable storage medium
EP3504709B1 (en) Determining phonetic relationships
US20080059190A1 (en) Speech unit selection using HMM acoustic models
EP1071074A2 (en) Speech synthesis employing prosody templates
JP5660441B2 (en) Speech recognition apparatus, speech recognition method, and program
JP2007264126A (en) Speech processing device, speech processing method and speech processing program
JP2010152751A (en) Statistic model learning device, statistic model learning method and program
JP5007401B2 (en) Pronunciation rating device and program
US11810471B2 (en) Computer implemented method and apparatus for recognition of speech patterns and feedback
JP2017009842A (en) Speech recognition result output device, speech recognition result output method and speech recognition result output program
JP4859125B2 (en) Pronunciation rating device and program
JP6127422B2 (en) Speech recognition apparatus and method, and semiconductor integrated circuit device
JP2014062970A (en) Voice synthesis, device, and program
US20230298564A1 (en) Speech synthesis method and apparatus, device, and storage medium
JP4532862B2 (en) Speech synthesis method, speech synthesizer, and speech synthesis program
JP4716125B2 (en) Pronunciation rating device and program
JP4883750B2 (en) Acoustic rating device and program
JP6786065B2 (en) Voice rating device, voice rating method, teacher change information production method, and program
JP4610451B2 (en) Speech recognition apparatus and program
JP2006201491A (en) Pronunciation grading device, and program
JP4962930B2 (en) Pronunciation rating device and program
JP4379050B2 (en) Speech recognition apparatus, speech recognition speed-up method, and program
JP5066668B2 (en) Speech recognition apparatus and program
JP7162579B2 (en) Speech synthesizer, method and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100524

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110928

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111018

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111028

R150 Certificate of patent or registration of utility model

Ref document number: 4859125

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141111

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250