JP2006251721A - 音響評定装置、音響出力装置およびそのプログラム - Google Patents

音響評定装置、音響出力装置およびそのプログラム Download PDF

Info

Publication number
JP2006251721A
JP2006251721A JP2005071934A JP2005071934A JP2006251721A JP 2006251721 A JP2006251721 A JP 2006251721A JP 2005071934 A JP2005071934 A JP 2005071934A JP 2005071934 A JP2005071934 A JP 2005071934A JP 2006251721 A JP2006251721 A JP 2006251721A
Authority
JP
Japan
Prior art keywords
structure information
time structure
sound
information
rating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005071934A
Other languages
English (en)
Inventor
Hiroaki Kato
宏明 加藤
Minoru Tsuzaki
実 津崎
Makiko Muto
牧子 武藤
Yoshinori Kosaka
芳典 匂坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2005071934A priority Critical patent/JP2006251721A/ja
Publication of JP2006251721A publication Critical patent/JP2006251721A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】従来の音響評定装置においては、音響の良し悪しを評価する場合に、人間の知覚に合致した態様で評価できない、という課題があった。
【解決手段】音響を受け付ける音響受付部と、前記音響受付部が受け付けた音響から、当該音響の時間構造に関する情報である時間構造情報を抽出する時間構造情報抽出部と、音響の良し悪しを評定するための情報である模範評定情報を格納している模範評定情報格納部と、前記時間構造情報抽出部が抽出した時間構造情報と前記模範評定情報に基づく模範時間構造情報に基づいて前記音響の評定を行い、かつ所定のルールに基づいて前記音響の評定を行う評定部と、前記評定部における評定結果を出力する評定結果出力部を具備する音響評定装置により、人間の知覚に合致した態様で、音響の良し悪しを評価できる。
【選択図】図1

Description

本発明は、入力された音声や楽音などの音響の良し悪しを評価する装置等に関し、特に、語学学習や音楽演奏の学習等に利用できる音響評定装置等に関するものである。
従来の技術として、以下の語学学習装置がある(特許文献1参照)。本語学学習装置は、学習者が選択した役割の発音をレファランスデータと比較して一致度によって点数化して表示し、点数によって適当な次の画面を自動に表示することにより、学習能率を向上させる装置である。本従来の語学学習装置は、入力された音声信号は音声認識技術により分析された後、標準音データと一致度が比較されて点数が与えられ、学習者発音のスペクトルと抑揚とが学習者発音表示ボックスに表れるという構成になっている。
特開2003−228279(第1頁、第1図等)
しかし、入力された音響の自然性などの音響の良し悪しの評価は、特に、語学学習等において極めて重要であるにも関わらず、従来の語学学習装置は、当該音響の良し悪しを評価する機能を有しなかった。
また、音響の良し悪しを評価する場合に、人間の知覚に合致した態様で評価できなかった。
本第一の発明の音響評定装置は、音響を受け付ける音響受付部と、前記音響受付部が受け付けた音響から、当該音響の時間構造に関する情報である時間構造情報を抽出する時間構造情報抽出部と、音響の良し悪しを評定するための情報である模範評定情報を格納している模範評定情報格納部と、前記時間構造情報抽出部が抽出した時間構造情報と前記模範評定情報に基づく模範時間構造情報に基づいて前記音響の評定を行い、かつ所定のルールに基づいて前記音響の評定を行う評定部と、前記評定部における評定結果を出力する評定結果出力部を具備する音響評定装置である。
かかる構成により、音響の良し悪しを評価する場合に、人間の知覚に合致した態様で評価できる。
また、本第二の発明の音響評定装置は、第一の発明に対して、前記評定部は、前記時間構造情報抽出部が抽出した時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第一時間構造情報を取得する第一時間構造情報取得手段と、前記模範評定情報に基づく模範時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第二時間構造情報を取得する第二時間構造情報取得手段と、前記第一時間構造情報のうちの前半部の情報の評価値を、後半部の情報の評価値より重く評価することを示すルールである前半部強調評価ルールを格納しているルール格納手段と、前記第一時間構造情報と前記第二時間構造情報を比較し、前記ルール格納手段に格納されているルールに基づいて評定値を算出する評定値算出手段を具備する音響評定装置である。
かかる構成により、音響の良し悪しを評価する場合に、人間の知覚に合致した態様で評価できる。
また、本第三の発明の音響評定装置は、第一の発明に対して、前記評定部は、前記時間構造情報抽出部が抽出した時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第一時間構造情報を取得する第一時間構造情報取得手段と、前記模範評定情報に基づく模範時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第二時間構造情報を取得する第二時間構造情報取得手段と、前記第二時間構造情報が規則的であることを示す情報であり、当該第二時間構造情報に対応する第一時間構造情報と、当該第二時間構造情報にずれが存在する場合に、当該ずれを他のずれと比較して重く評価することを示すルールである規則強調ルールを格納しているルール格納手段と、前記第一時間構造情報と前記第二時間構造情報を比較し、前記ルール格納手段に格納されているルールに基づいて評定値を算出する評定値算出手段を具備する音響評定装置である。
かかる構成により、音響の良し悪しを評価する場合に、人間の知覚に合致した態様で評価できる。
また、本第四の発明の音響評定装置は、第一の発明に対して、前記評定部は、前記時間構造情報抽出部が抽出した時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第一時間構造情報を取得する第一時間構造情報取得手段と、前記模範評定情報に基づく模範時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第二時間構造情報を取得する第二時間構造情報取得手段と、前記第二時間構造情報が示す拍が規則的でなく、かつ当該第二時間構造情報に対応する第一時間構造情報の後半部と、当該第二時間構造情報の後半部にずれが存在する場合に、当該ずれを他のずれと比較して軽く評価することを示すルールである不規則後半部非強調ルールを格納しているルール格納手段と、前記第一時間構造情報と前記第二時間構造情報を比較し、前記ルール格納手段に格納されているルールに基づいて評定値を算出する評定値算出手段を具備する音響評定装置である。
かかる構成により、音響の良し悪しを評価する場合に、人間の知覚に合致した態様で評価できる。
また、本第五の発明の音響評定装置は、第一の発明に対して、前記評定部は、前記時間構造情報抽出部が抽出した時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第一時間構造情報を取得する第一時間構造情報取得手段と、前記模範評定情報に基づく模範時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第二時間構造情報を取得する第二時間構造情報取得手段と、前記第二時間構造情報の前半部と前記第一時間構造情報の前半部と比較し、前記第一時間構造情報の前半部の情報が示す時間情報が、対応する前記第二時間構造情報の前半部の情報が示す時間情報と比較して伸びていることを示す場合に、当該伸びている部分のずれを、他のずれと比較して重く評価することを示すルールである前半伸長強調ルールと、前記第二時間構造情報の後半部と前記第一時間構造情報の後半部と比較し、前記第一時間構造情報の後半部の情報が示す時間情報が、対応する前記第二時間構造情報の後半部の情報が示す時間情報と比較して縮んでいることを示す場合に、当該縮んでいる部分のずれを、他のずれと比較して重く評価することを示すルールである後半圧縮強調ルールを格納しているルール格納手段と、前記第一時間構造情報と前記第二時間構造情報を比較し、前記ルール格納手段に格納されているルールに基づいて評定値を算出する評定値算出手段を具備する音響評定装置である。
かかる構成により、音響の良し悪しを評価する場合に、人間の知覚に合致した態様で評価できる。
また、本第六の発明の音響評定装置は、第一の発明に対して、前記評定部は、前記時間構造情報抽出部が抽出した時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第一時間構造情報を取得する第一時間構造情報取得手段と、前記模範評定情報に基づく模範時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第二時間構造情報を取得する第二時間構造情報取得手段と、前記模範評定情報に基づく音の強さを示す情報である音強度、または/および前記音響受付部が受け付けた音響の音強度を取得する音強度取得手段と、前記音強度取得手段が取得した2以上の音強度の値が異なる場合には、音強度に応じた重みが加味され、評定値が算出されるというルールである音強度強調ルールを格納しているルール格納手段と、前記第一時間構造情報と前記第二時間構造情報を比較し、前記ルール格納手段に格納されているルールに基づいて評定値を算出する評定値算出手段を具備する音響評定装置である。
かかる構成により、音の強さが時間構造のずれに与える影響を加味した、音響の評定ができる。そのため、さらに人間の知覚に合致した音響の評定が可能となる。
また、本第七の発明の音響評定装置は、音響の入力を受け付ける音響受付部と、前記音響受付部が受け付けた音響から、当該音響の時間構造に関する情報である時間構造情報を抽出する時間構造情報抽出部と、音響の良し悪しを評定するための情報である模範評定情報を格納している模範評定情報格納部と、前記時間構造情報抽出部が抽出した時間構造情報と、前記模範評定情報に基づく模範時間構造情報に基づいて、前記時間構造情報の一部の時間構造情報を補正する時間構造情報部分補正部と、前記時間構造情報部分補正部が一部を補正して得た時間構造情報と、前記音響受付部が受け付けた音響に基づいて、補正された音響を構成する補正音響構成部と、前記補正音響構成部が構成した音響を出力する音響出力部を具備する音響出力装置である。
かかる構成により、少ない処理量で、人間の知覚に違和感がない、良好な音響を出力することができる。
また、本第八の発明の音響評定装置は、第七の発明に対して、前記時間構造情報部分補正部は、前記時間構造情報抽出部が抽出した時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第一時間構造情報を取得する第一時間構造情報取得手段と、前記模範評定情報に基づく模範時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第二時間構造情報を取得する第二時間構造情報取得手段と、前記第一時間構造情報のうちの前半部の情報のずれを、対応する第二時間構造情報に基づいて補正をする前半部分補正手段を具備する音響出力装置である。
かかる構成により、少ない処理量で、人間の知覚に違和感がない、良好な音響を出力することができる。
また、本第九の発明の音響評定装置は、第七の発明に対して、前記時間構造情報部分補正部は、前記時間構造情報抽出部が抽出した時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第一時間構造情報を取得する第一時間構造情報取得手段と、前記模範評定情報に基づく模範時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第二時間構造情報を取得する第二時間構造情報取得手段と、前記第二時間構造情報が規則的であることを示す情報であり、当該第二時間構造情報に対応する第一時間構造情報と、当該第二時間構造情報にずれが存在する場合に、前記第一時間構造情報のうちの当該ずれを前記第二時間構造情報に基づいて補正する規則部分補正手段を具備する音響出力装置である。
かかる構成により、少ない処理量で、人間の知覚に違和感がない、良好な音響を出力することができる。
また、本第十の発明の音響評定装置は、第七の発明に対して、前記時間構造情報部分補正部は、前記時間構造情報抽出部が抽出した時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第一時間構造情報を取得する第一時間構造情報取得手段と、前記模範評定情報に基づく模範時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第二時間構造情報を取得する第二時間構造情報取得手段を具備し、前記第二時間構造情報が規則的ではない場合に、当該第二時間構造情報に対応する第一時間構造情報の後半部は補正しないことを特徴とする音響出力装置である。
かかる構成により、少ない処理量で、人間の知覚に違和感がない、良好な音響を出力することができる。
また、本第十一の発明の音響評定装置は、第七の発明に対して、前記時間構造情報部分補正部は、前記時間構造情報抽出部が抽出した時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第一時間構造情報を取得する第一時間構造情報取得手段と、前記模範評定情報に基づく模範時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第二時間構造情報を取得する第二時間構造情報取得手段と、前記第二時間構造情報の前半部と前記第一時間構造情報前半部と比較し、前記第一時間構造情報の前半部の情報が示す時間情報が、対応する前記第二時間構造情報の前半部の情報が示す時間情報と比較して伸びていることを示す場合に、当該第一時間構造情報の該当部分を、前記第二時間構造情報に基づいて補正する前半伸長部分補正手段、および/または前記第二時間構造情報の後半部と前記第一時間構造情報後半部と比較し、前記第一時間構造情報の後半部の情報が示す時間情報が、対応する前記第二時間構造情報の後半部の情報が示す時間情報と比較して縮んでいることを示す場合に、当該第一時間構造情報の該当部分を、前記第二時間構造情報に基づいて補正する後半圧縮部分補正手段を具備する音響出力装置である。
かかる構成により、少ない処理量で、人間の知覚に違和感がない、良好な音響を出力することができる。
また、本第十二の発明の音響評定装置は、第七から第十一いずれかの発明に対して、前記時間構造情報抽出部が抽出した時間構造情報と、前記模範評定情報に基づく模範時間構造情報に基づいて前記音響の評定を行い、かつ所定のルールに基づいて前記音響の評定を行う評定部と、前記評定部における評定結果を出力する評定結果出力部をさらに具備する音響出力装置である。
かかる構成により、少ない処理量で、人間の知覚に違和感がない、良好な音響を出力することができ、かつ入力された音響の良し悪しを評価する場合に、人間の知覚に合致した態様で評価できる。
本発明による音響評定装置によれば、人間の知覚に合致した態様で、音響の良し悪しを評価できる。また、本発明による音響出力装置によれば、少ない処理量で、人間の知覚に違和感がない、良好な音響を出力することができる。
以下、音響評定装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
図1は、本実施の形態における音響評定装置のブロック図である。
本音響評定装置は、音響受付部101、時間構造情報抽出部102、模範評定情報格納部103、評定部104、評定結果出力部105を具備する。
評定部104は、第一時間構造情報取得手段1041、第二時間構造情報取得手段1042、ルール格納手段1043、評定値算出手段1044を具備する。
音響受付部101は、音響の入力を受け付ける。音響とは、音声や楽音などである。楽音とは、楽器の演奏により出力される音である。音響受付部101は、例えば、マイクとそのドライバーソフト、またはマイクのドライバーソフト等により実現され得る。また、音響は、マイクだけではなく、磁気テープやCD−ROMなどの記録媒体から読み出されても良い。
時間構造情報抽出部102は、音響受付部101が受け付けた音響から、当該音響の時間構造に関する情報である時間構造情報を抽出する。時間構造情報は、例えば、音響の大きさの1次微分値が所定の値以上の時点を示す情報である。また、時間構造情報は、例えば、ある周波数帯域の音の大きさの1次微分値が所定の値以上の時点を示す情報である。また、時間構造情報は、例えば、ある音素や、吹奏楽器の音、擦弦楽器の音の継続時間長を示す情報である。また、時間構造情報は、例えば、音響を構成する音素の開始時点を示す情報である。また、時間構造情報は、例えば、ある音素の開始時点を示す情報と、終了時点を示す情報である。時間構造情報の内容や構造は問わない。時間構造情報抽出部102は、通常、MPUやメモリ等から実現され得る。時間構造情報抽出部102の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
模範評定情報格納部103は、音響の良し悪しを評定するための情報である模範評定情報を格納している。模範評定情報は、模範的な時間構造情報である模範時間構造情報と同じでも良いし、模範時間構造情報を取り出すための元になる情報でも良い。模範評定情報のデータ構造は問わない。模範評定情報格納部103は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。不揮発性の記録媒体でも、揮発性の記録媒体でも良い。模範評定情報格納部103は、音響が録音された磁気テープなどでも良い。
評定部104は、時間構造情報抽出部102が抽出した時間構造情報と模範評定情報格納部103の模範評定情報に基づく模範時間構造情報に基づいて、音響受付部101が受け付けた音響の評定を行い、かつ所定のルールに基づいて音響の評定を行う。所定のルールは、評価部分の特性によって、重み付けをして評価するルールであることが好適である。評定部104は、模範評定情報から、何らかの処理を行うことにより模範時間構造情報を算出しても良いし、模範評定情報と模範時間構造情報が同じ情報である場合には、模範時間構造情報を読み出すだけでも良い。評定部104は、通常、MPUやメモリ等から実現され得る。評定部104の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
第一時間構造情報取得手段1041は、時間構造情報抽出部102が抽出した時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第一時間構造情報を取得する。所定のまとまりのある音響部分とは、例えば、所定の時間分の音響部分である。また、所定のまとまりのある音響部分とは、例えば、言語的な切れ目から言語的な切れ目までの間の音響部分である。かかる音響部分は、例えば、一文節である。また、所定のまとまりのある音響部分とは、例えば、音楽的な切れ目から音楽的な切れ目までの間の音響部分である。かかる音響部分は、例えば、一フレーズである。また、所定のまとまりのある音響部分とは、例えば、音声や音楽などのように、明示的な息継ぎの箇所が存在する場合は、息継ぎから息継ぎまでの部分である。また、所定のまとまりのある音響部分とは、例えば、音声や音楽などのように、明示的な休止の箇所が存在する場合は、休止から休止までの部分である。また、所定のまとまりのある音響部分とは、例えば、音の大きさが急激に増加する時点を切れ目にして、取得されても良い。音の大きさが急激に増加する時点は、例えば、音の大きさの1次微分値が所定の値以上の時点である。また、音の大きさが急激に増加する時点は、例えば、ある周波数帯域の音の大きさの1次微分値が所定の値以上の時点である。また、所定のまとまりのある音響部分とは、例えば、ある音素が所定時間以上、持続する場合における当該音素の発音区間である。また、所定のまとまりのある音響部分とは、例えば、吹奏楽器や擦弦楽器の所定の音が所定時間以上、持続する場合における当該音の出力区間である。第一時間構造情報取得手段1041は、通常、MPUやメモリ等から実現され得る。第一時間構造情報取得手段の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
第二時間構造情報取得手段1042は、模範評定情報に基づく模範時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第二時間構造情報を取得する。第二時間構造情報取得手段1042は、通常、MPUやメモリ等から実現され得る。第二時間構造情報取得手段の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
ルール格納手段1043は、ここでは、受け付けた音響を評価する際に、音響の箇所によって重みを付けて評価するための種々のルールを格納している。ここでのルールには、前半部強調評価ルール、規則強調ルール、前半伸長強調ルール、および後半圧縮強調ルールがある。前半部強調評価ルールは、第一時間構造情報のうちの前半部の情報の評価値を、後半部の情報の評価値より重く評価することを示すルールである。規則強調ルールは、第二時間構造情報が規則的であることを示す情報である場合で、かつ当該第二時間構造情報に対応する第一時間構造情報と、当該第二時間構造情報にずれが存在する場合に、当該ずれを他のずれと比較して重く評価することを示すルールである。なお、規則強調ルールは、第二時間構造情報が不規則的であることを示す情報である場合で、かつ当該第二時間構造情報に対応する第一時間構造情報と、当該第二時間構造情報にずれが存在する場合に、当該ずれを他のずれと比較して軽く評価することを示すルールでもある。前半伸長強調ルールは、第二時間構造情報の前半部と第一時間構造情報の前半部と比較し、第一時間構造情報の前半部の情報が示す時間情報が、対応する第二時間構造情報の前半部の情報が示す時間情報と比較して伸張していることを示す場合に、当該伸張している部分のずれを、他のずれと比較して重く評価することを示すルールである。後半圧縮強調ルールは、第二時間構造情報の後半部と第一時間構造情報の後半部と比較し、第一時間構造情報の後半部の情報が示す時間情報が、対応する第二時間構造情報の後半部の情報が示す時間情報と比較して縮んでいることを示す場合に、当該縮んでいる部分のずれを、他のずれと比較して重く評価することを示すルールである。前半部強調評価ルール、規則強調ルール、前半伸長強調ルール、および後半圧縮強調ルールの構造は問わない。また、如何に重み付けするかも問わない。ルール格納手段1043は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。不揮発性の記録媒体でも、揮発性の記録媒体でも良い。なお、「時間構造情報が規則的である」とは、時間構造情報が示す音の出力が等拍の出力である場合だけではなく、リズムが序々に速くなっていく場合、序々に遅くなっていく場合も含んでも良い。また、「時間構造情報が規則的である」とは、時間構造情報が示す音の出力が概ね等拍であるが、一部の拍の欠損がある場合も含んでも良い。
評定値算出手段1044は、第一時間構造情報と第二時間構造情報を比較し、ルール格納手段1043に格納されているルールに基づいて評定値を算出する。評定値算出手段1044は、通常、MPUやメモリ等から実現され得る。評定値算出手段1044の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
評定結果出力部105は、評定部104における評定結果を出力する。評定結果の出力態様は種々ある。評定結果の出力態様の例は、後述する。ここで、出力とは、ディスプレイへの表示、プリンタへの印字、音出力、外部の装置への送信等を含む概念である。評定結果出力部105は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。評定結果出力部105は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
次に、音響評定装置の動作について図2から図4のフローチャートを用いて説明する。
(ステップS201)音響受付部101は、音響を受け付けたか否かを判断する。音響を受け付ければステップS202に行き、音響を受け付けなければステップS208に行く。
(ステップS202)時間構造情報抽出部102は、カウンタiに1を代入する。
(ステップS203)時間構造情報抽出部102は、i番目の一まとまりの音響部分が存在するか否かを判断する。i番目の一まとまりの音響部分が存在すればステップS204に行き、i番目の一まとまりの音響部分が存在しなければステップS201に戻る。
(ステップS204)時間構造情報抽出部102は、i番目の一まとまりの音響部分の時間構造情報を取得する。時間構造情報取得処理の例は、図3のフローチャートを用いて説明する。
(ステップS205)評定部104は、i番目の一まとまりの音響部分に対して評定を行う。評定処理の例は、図4のフローチャートを用いて説明する。
(ステップS206)評定結果出力部105は、i番目の一まとまりの音響部分の評定結果を出力する。
(ステップS207)時間構造情報抽出部102は、カウンタiを1、インクリメントする。ステップS203に戻る。
(ステップS208)音響受付部101は、音響の受け付けが終了したか否かを判断する。音響の受け付けが終了すればステップS209に行き、音響の受け付けが終了しなければステップS201に戻る。
(ステップS209)評定部104は、一まとまりの音響部分の全評定値から、総合点を算出する。総合点の算出式は問わない。評定部104は、例えば、一まとまりの音響部分の全評定値の平均点を総合点とする。また、評定部104は、例えば、一まとまりの音響部分の全評定値の合計点を総合点とする。
(ステップS210)評定結果出力部105は、ステップS209で算出した総合点を出力する。処理を終了する。
なお、図2のフローチャートにおいて、総合点の出力は、必須の処理ではない。また、図2のフローチャートにおいて、各音響部分の点数の出力が必須ではない。総合点の出力だけでも良い。
次に、音響評定装置における時間構造情報取得の処理について図3のフローチャートを用いて説明する。
(ステップS301)時間構造情報抽出部102は、カウンタiに1を代入する。
(ステップS302)時間構造情報抽出部102は、i番目の処理単位が存在するか否かを判断する。処理単位とは、事象を検出するための音響処理の長さの単位である。ここで、事象とは、人間がテンポを認識するための所定の変化であり、音響中に生起する所定の変化である。具体的には、事象とは、音の大きさが急激に変化すること、ある周波数帯域の音のエネルギーが急激に変化することなどである。なお、事象の検出方法については、実施の形態3で説明する。
(ステップS303)時間構造情報抽出部102は、一まとまりの音響部分のi番目の処理単位の音響に対して、人間の聴感特性を反映したバンドパスフィルタ処理を行う。
(ステップS304)時間構造情報抽出部102は、ステップS303におけるバンドパスフィルタ処理の出力信号に対して、バンド幅が中心周波数の単調増加関数として増加するような帯域分割を行う。
(ステップS305)時間構造情報抽出部102は、カウンタjに1を代入する。
(ステップS306)時間構造情報抽出部102は、ステップS304で分割した周波数帯域のうち、j番目の帯域が存在するか否かを判断する。j番目の帯域が存在すればステップS307に行き、j番目の帯域が存在しなければステップS310に行く。
(ステップS307)時間構造情報抽出部102は、j番目の帯域におけるフィルタ・チャネル信号の活性量の変化率を取得する。
(ステップS308)時間構造情報抽出部102は、ステップS307で取得した変化率が所定の値以上であるか否かを判断する。所定の値以上であればステップS309に行き、所定の値未満であればステップS311に行く。
(ステップS309)時間構造情報抽出部102は、一まとまりの音響部分のi番目の処理単位に対応する時点(t)を取得し、一時格納する。
(ステップS310)時間構造情報抽出部102は、カウンタiを1、インクリメントする。ステップS302に戻る。
(ステップS311)時間構造情報抽出部102は、カウンタjを1、インクリメントする。ステップS306に戻る。
次に、音響評定装置の評定処理の動作について図4のフローチャートを用いて説明する。
(ステップS401)第一時間構造情報取得手段1041は、時間構造情報抽出部102が抽出した時間構造情報の中の、評定対象の音響部分の時間構造情報を取得する。
(ステップS402)第二時間構造情報取得手段1042は、模範評定情報格納部103の模範評定情報に基づく模範時間構造情報の中の、評定対象の音響部分の模範時間構造情報を取得する。第二時間構造情報取得手段1042は、例えば、図3のフローチャートで説明した時間構造情報取得処理により、模範評定情報から模範時間構造情報を取得する。また、模範評定情報が時間構造情報の集合である場合、第二時間構造情報取得手段1042は、評定対象の音響部分の模範時間構造情報を取得する。
(ステップS403)評定値算出手段1044は、ステップS402で取得した評定対象の音響部分の模範時間構造情報に基づいて、模範時間構造情報が等拍などの規則性を有する時間構造の情報であるか否かを判断する。なお、評定値算出手段1044は、本判断の結果を一時格納しておく、とする。
(ステップS404)評定値算出手段1044は、カウンタiに1を代入する。
(ステップS405)評定値算出手段1044は、ステップS401で取得した時間構造情報の中でi番目の時間構造情報が存在するか否かを判断する。i番目の時間構造情報が存在すればステップS406に行き、i番目の時間構造情報が存在しなければステップS417に行く。
(ステップS406)評定値算出手段1044は、ステップS401で取得した時間構造情報の中のi番目の時間構造情報と、i番目の模範時間構造情報の差(時間の差)を算出する。
(ステップS407)評定値算出手段1044は、ステップS403で一時格納した判断結果が規則的であるとの判断結果であるか否かを判断する。規則的である場合はステップS408に行き、規則的でない場合はステップS409に飛ぶ。
(ステップS408)評定値算出手段1044は、ステップS406で取得した値(ここで「x」とする)に対して、所定の重み付け処理(例えば「1.4x」を算出)を行う。
(ステップS409)評定値算出手段1044は、一まとまりの音響部分の中で、i番目の時間構造情報に対応する時点が、前半部であるか否かを判断する。前半部であればステップS410に行き、前半部でなければステップS413に行く。なお、いずれの範囲を前半部であるとするかは問わない。
(ステップS410)評定値算出手段1044は、ステップS406で取得した値またはステップS408で取得した値(ここで「y」とする)に対して、所定の重み付け処理(例えば「1.5y」を算出)を行う。
(ステップS411)評定値算出手段1044は、模範時間構造情報が示す時間間隔に対して、評定対象の音響部分の時間構造情報が、時間的に伸長しているか否かを判断する。伸長していればステップS412に行き、伸長していなければステップS416に行く。
(ステップS412)評定値算出手段1044は、今までの処理で取得した値(ここで「z」とする)に対して、所定の重み付け処理(例えば「1.1z」を算出)を行う。
(ステップS413)評定値算出手段1044は、一まとまりの音響部分の中で、i番目の時間構造情報に対応する時点が、後半部であるか否かを判断する。後半部であればステップS412に行き、後半部でなければステップS416に行く。なお、いずれの範囲を後半部であるとするかは問わない。
(ステップS414)評定値算出手段1044は、模範時間構造情報が示す時間間隔に対して、評定対象の音響部分の時間構造情報が、時間的に圧縮しているか否かを判断する。圧縮していればステップS415に行き、圧縮していなければステップS416に行く。
(ステップS415)評定値算出手段1044は、今までの処理で取得した値(ここで「z」とする)に対して、所定の重み付け処理(例えば「1.1z」を算出)を行う。
(ステップS416)評定値算出手段1044は、カウンタiを1、インクリメントする。
(ステップS417)評定値算出手段1044は、今まで算出した全評定値に基づいて、一まとまりの音響部分の総合評定値を算出する。総合評定値を算出する演算式は問わない。
以下、本実施の形態における音響評定装置の具体的な動作について説明する。
まず、音響評定装置の音響受付部101は、音響を受け付ける。次に、時間構造情報抽出部102は、音響受付部101が受け付けた音響のうち、一まとまりの音響部分(例えば、1500msの時間幅の音響部分)を取得する。
次に、時間構造情報抽出部102は、一まとまりの音響部分の時間構造情報を、以下のようにして取得する。つまり、時間構造情報抽出部102は、まず、事象を検出する。事象の検出方法の例は、実施の形態3で説明する。なお、事象とは、音の大きさが急激に変化すること、ある周波数帯域の音のエネルギーが急激に変化することなどである。時間構造情報抽出部102は、検出した事象の時点(t)を取得し、一時格納する。かかる時点(t)の集合が時間構造情報である。なお、時間構造情報抽出部102が時点(t)の取得をした場合に、時間構造情報抽出部102または図示しない他の手段が、当該事象に対応する音の強度を取得しても良い。
次に、第二時間構造情報取得手段1042は、上記一まとまりの音響部分に対応する模範の音響部分の模範時間構造情報を取得する。第二時間構造情報取得手段1042は、模範評定情報格納部103の模範評定情報から、かかる模範時間構造情報を取得する。
次に、評定値算出手段1044は、模範時間構造情報に基づいて、模範時間構造情報が等拍などの規則性を有する時間構造の情報であるか否かを判断する。
次に、評定値算出手段1044は、時間構造情報と、模範時間構造情報の差(時間の差)を算出する。ここで、時間の差を算出する方法はいくつかある。
時間構造情報と模範時間構造情報の差の第一の算出方法について、図5を用いて説明する。図5(a)は、試験音響(X)の中で検出された事象を示す。図5(a)において、横軸は時間(単位:ms)、縦軸は音の強さ(単位:dB SPL)を示す。図5(a)において、横軸は1500msまでの長さである。図5(a)において、各事象は、T(1)、T(2)、・・・T(n)の時点(t)において認識されている。なお、試験音響(X)は、音響受付部103が受け付けた音響である。
次に、模範の音響である標準音響(R)を図5(b)に示す。図5(a)は、図5(b)と比較して、事象の発生時点(t)が、T(2)以降、ずれている。かかるずれを誤差量と呼ぶ。試験音響(X)と標準音響(R)の誤差量を、図5(c)に示す。図5(c)において、横軸は事象の個数(番号)を示し、縦軸は誤差量(ms)を示す。ここでは、試験音響(X)の事象の時点が標準音響(R)の事象の時点と比較して遅れている場合に、誤差量は正の数値となる。つまり、「誤差量E(i)=T(i)−T(i)」である。なお、第一の算出方法において、評定値算出手段1044は、誤差量を、時間長(ms)ではなく、平均的な拍間隔に対する比(%)などで算出しても良い。つまり、「誤差量E(i)=((T(i)−T(i))/((T(n)−T(1))/(n−1)))×100」でも良い。
次に、時間構造情報と模範時間構造情報の差の第二の算出方法について、図6を用いて説明する。図6(a)において、試験音響(X)の各事象は、T(1)、T(2)、・・・T(n)の時点(t)において認識されている。また、模範の音響である標準音響(R)は図6(b)である。そして、試験音響(X)と標準音響(R)の誤差量を、図6(c)に示す。図6(c)において、評定値算出手段1044は、試験音響(X)の2音(2事象)の間隔の標準音響の対応する2音の間隔に対する時間長の差から誤差量を算出する。なお、第二の算出方法において、誤差量の算出をする場合に、評定値算出手段1044は、隣接音間の間隔を対象としたが,これと並行して,より広い間隔(1個とばし,…n個とばし)を対象としても良い。これは、特に、各音間に強さの違いがある場合に有効である。時間的に多少隔たっていても,2つの強い音の間隔をピックアップするような機能が人間には備わっているおり、かかる人間の知覚に合致した音響の評定が可能となる。英語のリズムがストレス(特に強い音節)間の時間間隔で担われていることなどが、上記の処理が人間の知覚と合致していることを知らしめる例である。
以上の処理により、評定値算出手段1044は、音響受付部が受け付けた音響のなかの一まとまりの音響の時間構造情報と、模範時間構造情報の差(時間の差)を算出した。
次に、評定値算出手段1044は、以下のルールにより、各種の重み付けを行う。
第一の重み付けの例を、図7を用いて説明する。第一の重み付けの例は、前半部強調評価ルールを用いた重み付けである。前半部強調評価ルールとは、第一時間構造情報のうちの前半部の情報の評価値を、後半部の情報の評価値より重く評価することを示すルールである。具体的には、前半部強調評価ルールは、図7(b)に示す重み関数である。つまり、まず、評定値算出手段1044は、図7(a)に示す誤差量(E(i))を算出した、とする。かかる誤差量の算出は上述した方法の通りである。そして、次に、評定値算出手段1044は、図7(b)の重み関数に従って、算出した誤差量に重みを乗じ、評定値を算出する。
第二の重み付けの例を、図8を用いて説明する。第二の重み付けの例は、規則強調ルールを用いた重み付けである。規則強調ルールは、第二時間構造情報が規則的であることを示す情報である場合で、当該第二時間構造情報に対応する第一時間構造情報と、当該第二時間構造情報にずれが存在する場合に、当該ずれを他のずれと比較して重く評価することを示すルールである。具体的には、第二時間構造情報取得手段1042が、第二時間構造情報として、図8(a)に示す標準音響(R1)の第二時間構造情報を取得したとする。かかる第二時間構造情報は、等拍を示す時間構造情報である。したがって、評定値算出手段1044は、第二時間構造情報が規則性を有する時間構造の情報である、と判断する。かかる場合、評定値算出手段1044は、受け付けた時間構造情報と、それに対応する模範時間構造情報の差(時間の差)を算出する。そして、次に、評定値算出手段1044は、図8(c)の81の重み関数に基づいて、算出した時間の差に重みを乗じる。つまり、評定値算出手段1044は、第二時間構造情報が規則性を有する時間構造の情報である場合であり、かつ一まとまりの音響の前半部のずれは重く評価する。なお、図8(c)の81の重み関数によれば、評定値算出手段1044は、第二時間構造情報が規則性を有する時間構造の情報である場合であっても、一まとまりの音響の後半部のずれは軽く評価している。
さらに、第二時間構造情報取得手段1042が、第二時間構造情報として、図8(b)に示す標準音響(R2)の第二時間構造情報を取得したとする。かかる第二時間構造情報は、規則性のない時間構造情報である。かかる場合、評定値算出手段1044は、受け付けた時間構造情報と、それに対応する模範時間構造情報の差(時間の差)を算出する。そして、次に、評定値算出手段1044は、図8(c)の82の重み関数に基づいて、算出した時間の差に重みを乗じる。つまり、評定値算出手段1044は、第二時間構造情報が不規則性を有する時間構造の情報である場合であっても、一まとまりの音響の前半部のずれは若干重く評価する。ここで、若干とは、第二時間構造情報が規則性を有する時間構造の情報である場合と比較すれば、軽く評価する、という意味である。また、評定値算出手段1044は、第二時間構造情報が不規則性を有する時間構造の情報である場合であって、一まとまりの音響の後半部のずれは、非常に軽く評価する。
かかる評価の軽重は、人間の知覚に極めて合致している。つまり、標準音響(第二時間構造情報に対応する音響)が規則正しくない場合(R2)は、規則正しい場合(R1)に比べて、人間のずれに対する感覚は敏感でなくなる。したがって、一般にR2はR1に比べて知覚的重みは小さくなる。さらに、ずれが発生している位置(音響の箇所)の影響はより顕著になる(重み関数のダイナミックレンジが広がる)。したがって、R2はR1に比べて後半部、特に末尾における重みが非常に小さくなる。つまり、音響の前半部のずれの評価の度合いは、より重くなる。
また、前半伸長強調ルール、および後半圧縮強調ルールの適用についても同様である。つまり、前半伸長強調ルール、および後半圧縮強調ルールは、例えば、上記のような重み関数である。
上記のように、評定値算出手段1044は、評定値の算出を受け付けた音響のすべてについて完了する。そして、図2のフローチャートを用いて説明したように、すべての区間についての評定の完了まで、評定結果出力部105は、一まとまりの音響部分に対する評定値を出力する。評定結果の出力態様は問わない。出力態様の例は、後述する。また、すべての区間についての評定の完了した後、図2のフローチャートのステップS209、S210の処理、つまり、評定結果出力部105は、総合点の算出、出力処理を実行することが好適である。なお、評定結果出力部105は、総合点の出力のみ行っても良いし、一まとまりの音響部分に対する評定値を出力するだけでも良いし、両方の出力を行っても良い。
さらに、具体的な音響評定装置の評定処理の第一の例について説明する。今、例えば、アメリカ人の学習者が、日本語の練習をしている。そして、学習者は、音響「とっくみあいはゆうがたまでつづいた」と発音した、とする。本音響評定装置は、この発音が日本語の発音として良いか否かを定量的に算出して、出力するものとする。
本音響評定装置の模範評定情報格納部103は、模範的な日本語の発音の「とっくみあいはゆうがたまでつづいた」の音情報である模範評定情報を格納している、とする。
そして、音響受付部101は、学習者が発声した音響「とっくみあいはゆうがたまでつづいた」を受け付ける。
次に、時間構造情報抽出部102は、音響受付部101が受け付けた音響の時間構造情報を取得する。つまり、時間構造情報抽出部102は、図9に示す時間構造情報を取得する。図9の時間構造情報を示す表は、「音韻」「時間(ms)」を有するレコードからなる。つまり、時間構造情報抽出部102が取得する時間構造情報は、音韻毎の時間の長さである。
次に、第一時間構造情報取得手段1041は、図9の音響情報から、一まとまりの音響部分である最初の文節の音響「とっくみあいは」の時間構造情報を取得する。第一時間構造情報取得手段1041が取得した時間構造情報は、図10である。
次に、第一時間構造情報取得手段1041は、ここでは、模範評定情報格納部103の模範評定情報の対応箇所「とっくみあいは」の音響の全体長と、音響受付部101が受け付けた音響部分「とっくみあいは」の全体長を合わせるため、図10の時間構造情報を正規化する。そして、時間構造情報抽出部102は、図11の時間構造情報の「正規化後」を取得する。「正規化後」の属性値は、正規化した時間(ms)である。
次に、第二時間構造情報取得手段1042は、模範評定情報に基づく模範時間構造情報のうち、音響「とっくみあいは」に対応する時間構造情報である第二時間構造情報を取得する。つまり、第二時間構造情報取得手段1042は、図12に示す第二時間構造情報を取得する。図12は、「音韻」「時間(ms)」を有するレコードを1以上有する。
次に、評定値算出手段1044は、第一時間構造情報と第二時間構造情報を比較し、各音韻の時間長の差を取得する。かかる差異が、図13の表の「差異(絶対値)」である。この属性値「差異(絶対値)」が示す値は、音韻ごとの第一時間構造情報と第二時間構造情報の時間の差の絶対値である。
次に、評定値算出手段1044は、前半部強調評価ルールに基づいて、図13の表の「差異(絶対値)」の値に、重み付けを行う。重み付けの「重み」は、図14の属性値「重み」である。かかる属性値「重み」は、前半部強調評価ルールとして、ルール格納手段1043に格納されている。なお、前半部強調評価ルールは、図14の属性値「重み」のようなデータの集合ではなく、例えば、「文節の前半2音韻の評定値は、1.2倍、後半2音節の評定値は0.8倍」などのルールを示す情報でも良い。
そして、評定値算出手段1044は、先に算出した「差異(絶対値)」に、対応する「重み」の値を乗じて、最終的な評定値を算出する。最終的な評定値とは、ここでは、音韻ごとの評定値である。
そして、評定値算出手段1044は、図14の属性値「評定値」を得る。なお、評定値は、大きな数字ほど、音響の評価が良くないことを示す。
そして、評定結果出力部105は、例えば、音韻ごとの評定値を出力する。
次に、音響評定装置は、上記の処理を文節ごとに繰り返し、図15の表を得る。
そして、評定値算出手段1044は、音韻ごとの評定値に基づいて、100点満点の点数(例えば、「58点」)を算出する。なお、音韻ごとの評定値に基づいて、100点満点の点数を算出する演算式は問わない。
そして、評定値算出手段1044は、総合点を出力する。評定値算出手段1044の出力例を図16に示す。図16において、学習者の音響の基本周波数や、発音内容や、点数が出力されている。
以上、本実施の形態によれば、本音響評定装置は、音響の良し悪しの評価を行う場合に、人間の知覚に合致した評価ができる。
なお、本実施の形態によれば、ルール格納手段1043のルールは、上述したルールに限らない。つまり、人間の知覚に重要な影響を及ぼす音響の箇所を、他の箇所と比較して重く評価するようなルールであれば良い。また、人間の知覚に重要な影響を及ぼさない音響の箇所を、他の箇所と比較して軽く評価するようなルールであれば良い。
さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音響を受け付ける音響受付ステップと、前記音響受付ステップで受け付けた音響から、当該音響の時間構造に関する情報である時間構造情報を抽出する時間構造情報抽出ステップと、前記時間構造情報抽出ステップで抽出した時間構造情報と格納されている模範評定情報に基づく模範時間構造情報に基づいて前記音響の評定を行い、かつ所定のルールに基づいて前記音響の評定を行う評定ステップと、前記評定ステップにおける評定結果を出力する評定結果出力ステップを実行させるためのプログラム、である。
また、上記プログラムに対して、前記所定のルールは、前記第一時間構造情報のうちの前半部の情報の評価値を、後半部の情報の評価値より重く評価することを示すルールである前半部強調評価ルールであり、前記評定ステップは、前記時間構造情報抽出ステップで抽出した時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第一時間構造情報を取得する第一時間構造情報取得ステップと、前記模範評定情報に基づく模範時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第二時間構造情報を取得する第二時間構造情報取得ステップと、前記第一時間構造情報と前記第二時間構造情報を比較し、前記前半部強調評価ルールに基づいて評定値を算出する評定値算出ステップを具備するプログラム、である。
また、上記プログラムに対して、前記所定のルールは、前記第二時間構造情報が規則的であることを示す情報であり、当該第二時間構造情報に対応する第一時間構造情報と、当該第二時間構造情報にずれが存在する場合に、当該ずれを他のずれと比較して重く評価することを示すルールである規則強調ルールであり、前記評定ステップは、前記時間構造情報抽出ステップで抽出した時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第一時間構造情報を取得する第一時間構造情報取得ステップと、前記模範評定情報に基づく模範時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第二時間構造情報を取得する第二時間構造情報取得ステップと、前記第一時間構造情報と前記第二時間構造情報を比較し、前記規則強調ルールに基づいて評定値を算出する評定値算出ステップを具備するプログラム、である。
また、上記プログラムに対して、前記所定のルールは、前記第二時間構造情報が示す拍が規則的でなく、かつ当該第二時間構造情報に対応する第一時間構造情報の後半部と、当該第二時間構造情報の後半部にずれが存在する場合に、当該ずれを他のずれと比較して軽く評価することを示すルールである不規則後半部非強調ルールであり、前記評定ステップは、前記時間構造情報抽出ステップで抽出した時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第一時間構造情報を取得する第一時間構造情報取得ステップと、前記模範評定情報に基づく模範時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第二時間構造情報を取得する第二時間構造情報取得ステップと、前記第一時間構造情報と前記第二時間構造情報を比較し、前記不規則後半部非強調ルールに基づいて評定値を算出する評定値算出ステップを具備するプログラム、である。
また、上記プログラムに対して、前記所定のルールは、前記第二時間構造情報の前半部と前記第一時間構造情報の前半部と比較し、前記第一時間構造情報の前半部の情報が示す時間情報が、対応する前記第二時間構造情報の前半部の情報が示す時間情報と比較して伸びていることを示す場合に、当該伸びている部分のずれを、他のずれと比較して重く評価することを示すルールである前半伸長強調ルールと、前記第二時間構造情報の後半部と前記第一時間構造情報の後半部と比較し、前記第一時間構造情報の後半部の情報が示す時間情報が、対応する前記第二時間構造情報の後半部の情報が示す時間情報と比較して縮んでいることを示す場合に、当該縮んでいる部分のずれを、他のずれと比較して重く評価することを示すルールである後半圧縮強調ルールであり、前記評定ステップは、前記時間構造情報抽出ステップで抽出した時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第一時間構造情報を取得する第一時間構造情報取得ステップと、前記模範評定情報に基づく模範時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第二時間構造情報を取得する第二時間構造情報取得ステップと、前記第一時間構造情報と前記第二時間構造情報を比較し、前記前半伸長強調ルールと前記後半圧縮強調ルールに基づいて評定値を算出する評定値算出ステップを具備するプログラム、である。
(実施の形態2)
本実施の形態において、音の大きさが時間構造のずれの評価に影響を及ぼすルールである音強度強調ルールを適用した音響の評定処理を、音響評定装置が行う場合について説明する。
図17は、本実施の形態における音響評定装置のブロック図である。
本音響評定装置は、音響受付部101、時間構造情報抽出部102、模範評定情報格納部103、評定部1704、評定結果出力部105を具備する。
評定部1704は、第一時間構造情報取得手段1041、第二時間構造情報取得手段1042、ルール格納手段1043、評定値算出手段17044、音強度取得手段17041を具備する。
音強度取得手段17041は、模範評定情報に基づく音の強さを示す情報である音強度、または/および音響受付部101が受け付けた音響の音強度を取得する。かかる場合、模範評定情報は、音強度を取得できる情報であれば何でも良い。模範評定情報は、例えば、音響である。また、模範評定情報は、例えば、時間構造情報と音強度の対からなる情報の集合である。音強度取得手段17041は、通常、MPUやメモリ等から実現され得る。音強度取得手段17041の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
評定値算出手段17044は、第一時間構造情報と第二時間構造情報を比較し、ルール格納手段1043に格納されているルールに基づいて評定値を算出する。ただし、ここでルール格納手段1043に格納されているルールの一部が、実施の形態1におけるルールと異なるので、評定値算出手段17044の動作は、若干、評定値算出手段1044と異なる。具体的には、評定値算出手段17044は、音強度強調ルールに基づいて、音強度に規則性がない場合に、重み付け処理を行って、評定値を算出する点のみが、評定値算出手段1044と異なる。評定値算出手段17044は、通常、MPUやメモリ等から実現され得る。評定値算出手段17044の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
ルール格納手段1043は、ここでは、上記の前半部強調評価ルール、規則強調ルール、前半伸長強調ルール、および後半圧縮強調ルール以外に、音強度強調ルールを格納している。音強度強調ルールは、音強度取得手段17041が取得した2以上の音強度の値が異なる場合には、音強度に応じた重みが加味され、評定値が算出される、というルールである。つまり、本音強度強調ルールにおいて、音強度が強い音の時間的なずれは、重く評価される(低い点となる)。
次に、音響評定装置の動作について図18のフローチャートを用いて説明する。図18は、評定処理の動作を示すフローチャートである。本音響評定装置における評定処理以外の動作は、実施の形態1の音響評定装置の動作と同様であるので、その説明を省略する。また、図18のフローチャートにおいて、図4のフローチャートと異なるステップのみ説明する。
(ステップ1801)音強度取得手段17041は、評定対象の一まとまりの音響部分の音強度を取得する。そして、評定値算出手段17044は、音強度に規則性があるか否かを判断する。ここで言う規則性があるとは、例えば、すべての音強度が一致していることである。
(ステップ1802)評定値算出手段17044は、ステップ1801における判断が、規則性が無いとの判断か否かを判断する。不規則であるとの判断である場合にステップ1803に行き、規則的であるとの判断の場合にステップS407に行く。
なお、図18のフローチャートにおいて、音強度取得手段17041は、模範評定情報に基づく音の強さを示す情報である音強度を取得したが、音響受付部101が受け付けた音響の音強度を取得し、かかる音強度を評価の重み付けに用いても良い。
(ステップ1803)評定値算出手段17044は、ステップS406で算出した値(ここで「W」とする)に、重み付け処理(例えば、「W×音強度」を算出)を行う。なお、重み付け処理は、「W+(LR(i)−mean(LR))/mean(LR)」でも良い。ただし、LR(i)は、i番目の第二時間構造情報の時点に対応する音強度であり、mean(LR)は、一まとまりの音響部分の全音強度の平均値である。
以下、本実施の形態における音響評定装置が評定値を算出する場合に適用する音強度強調ルールの概念について説明する。
まず、図19を用いて、音強度取得手段17041が音強度を取得する方法について説明する。音が途中で切れることなく続いている場合の音強度の取得方法は、例えば、図19(a)、(b)の2つの方法がある。
図19(a)においては、音が途中で切れることなく続いている場合は、各音の代表的な強さを音強度(上記のLR(i))とする方法である。
図19(b)においては、音が途中で切れることなく続いている場合は、隣接する2音の代表値の差の絶対値を音強度とする方法である。
なお、系列内の構成音が独立している場合は個別の大きさをそのまま音強度として採用する。
次に、評定値算出手段17044は、音強度に規則性があるか否かを判断する。例えば、模範評定情報が図20(a)に示す音響(標準音響(R1))の場合は、評定値算出手段17044は、音強度に規則性があると判断する。また、模範評定情報が図20(b)に示す音響(標準音響(R3))の場合は、評定値算出手段17044は、音強度に規則性がないと判断する。
次に、評定値算出手段17044は、評価対象の時間構造情報と、模範時間構造情報の差(時間の差)を算出する。ここで、この差を「W」とする。
そして、評定値算出手段17044は、音強度に規則性があると判断した場合は、音強度に関する重み付け処理を行わない。一方、評定値算出手段17044は、音強度に規則性がないと判断した場合、例えば、以下のような重み付け処理を行う。つまり、評定値算出手段17044は、値「W」に各音の強さに応じた重みを加味する。例えば、評定値算出手段17044は、「W2(i)=W(i)+(LR(i)−mean(LR))/mean(LR)」ただし、「mean(LR)=(ΣLR(i))/n」と、新たな、現時点での評定値(W2)を算出する。
そして、その後、評定値算出手段17044は、実施の形態1で述べたような前半部強調評価ルール、規則強調ルール、前半伸長強調ルール、および後半圧縮強調ルールも適用して、最終的な評定値を算出する。
そして、評定値算出手段17044は、評定値の算出を受け付けた音響のすべてについて完了する。そして、図2のフローチャートを用いて説明したように、すべての区間についての評定の完了まで、評定結果出力部105は、一まとまりの音響部分に対する評定値を出力する。評定結果の出力態様は問わない。出力態様の例は、実施の形態1で説明したような態様が考えられる。また、すべての区間についての評定の完了した後、図2のフローチャートのステップS209、S210の処理、つまり、評定結果出力部105は、総合点の算出、出力処理を実行することが好適である。なお、評定結果出力部105は、総合点の出力のみ行っても良いし、一まとまりの音響部分に対する評定値を出力するだけでも良いし、両方の出力を行っても良い。
次に、具体的な音響評定装置の評定処理の第一の例について説明する。今、例えば、アメリカ人の学習者が、日本語の練習をしている。そして、学習者は、音響「ゆうがたまでつづいた」と発音した、とする。本音響評定装置は、この発音が日本語の発音として良いか否かを定量的に算出して、出力するものとする。
本音響評定装置の模範評定情報格納部103は、模範的な日本語の発音の「ゆうがたまでつづいた」の音情報である模範評定情報を格納している、とする。
そして、音響受付部101は、学習者が発声した音響「ゆうがたまでつづいた」を受け付ける。
次に、時間構造情報抽出部102は、音響受付部101が受け付けた音響の時間構造情報を取得する。つまり、時間構造情報抽出部102は、図21に示す時間構造情報を取得する。図21の時間構造情報を示す表は、「時間(ms)」「音韻」「音韻長(ms)」「母音開始点(ms)」「母音開始点間隔(ms)」を有するレコードを1以上有する。「時間(ms)」は、開始時点から、音韻の開始時点までの時間(単位:ms)である。「音韻」は、音韻を示す。「音韻」は、休止や終了を含む。「音韻長(ms)」は、音韻の長さ(単位:ms)である。「母音開始点(ms)」は、母音(a,iなど)の開始時点(単位:ms)を示す。「母音開始点間隔(ms)」は、母音間の間隔(単位:ms)を示す。「母音開始点間隔(ms)」の最初の値「215」は、母音「u」の開始点「160」と母音「a」の開始点「375」の間隔であり、「375−160」により算出される。つまり、時間構造情報抽出部102が取得する時間構造情報は、ここでは、最終的には、母音開始点間隔である。
次に、第一時間構造情報取得手段1041は、図21の音響情報から、一まとまりの音響部分である最初の文節の音響「ゆうがたまでつづいた」の時間構造情報を取得する。ここで、一まとまりの音響部分は、音響受付部101が受け付けた音響全体である。
次に、第二時間構造情報取得手段1042は、模範評定情報に基づく模範時間構造情報のうち、音響「ゆうがたまでつづいた」に対応する時間構造情報である第二時間構造情報を取得する。つまり、第二時間構造情報取得手段1042は、図22に示す第二時間構造情報を取得する。図22の表は、「時間(ms)」「音韻」「音韻長(ms)」「母音開始点(ms)」「母音開始点間隔(ms)」を有するレコードを1以上有する。
次に、評定値算出手段1044は、第一時間構造情報と第二時間構造情報を比較し、各音韻の時間長の差を取得する。かかる差異が、図23の表の「母音開始点間隔誤差(ms)」である。この属性値「母音開始点間隔誤差(ms)」が示す値は、第一時間構造情報の母音開始点間隔と第二時間構造情報の母音開始点間隔の差である。
次に、評定値算出手段1044は、前半部強調評価ルール、音強度強調ルールに基づいて、図23の表の「母音開始点間隔誤差(ms)」の値に、重み付けを行う。
そして、評定値算出手段1044は、図23の表の「重み付き誤差」を得る。なお、図23の表は、「時間(ms)」「音韻」「音韻長(ms)」「母音開始点(ms)」「母音開始点間隔(ms)」「母音開始点間隔誤差(ms)」「先頭からの個数に対応した重み(母音開始点間隔)」「母音開始点の強さ(dB)」「強さに由来した重み(母音開始点)」「強さに対応した重み(母音開始点間隔)」「重み付き誤差」を有する。「先頭からの個数に対応した重み(母音開始点間隔)」の各属性値は、ここでの、前半部強調評価ルールである。「強さに対応した重み(母音開始点間隔)」の各属性値は、ここでの、音強度強調ルールである。
評定値算出手段1044は、先に算出した「母音開始点間隔誤差(ms)」の各属性値に、対応する属性値「先頭からの個数に対応した重み(母音開始点間隔)」と、属性値「強さに対応した重み(母音開始点間隔)」を乗じて、属性値「重み付き誤差」を得る。この属性値が、前半部強調評価ルール、および音強度強調ルールを適用して重み付けした、音響の評価結果である。
なお、「母音開始点の強さ(dB)」は、音強度取得手段17041が取得する。また、音強度強調ルールは、音響受付部101が受け付けた音響の音強度の平均に対する評価対象の音韻の音強度の割合を算出する、というルールである。つまり、音強度強調ルールの適用により、「82/((82+55+92+58+67+85+62+51+80)/9)」が算出され、「1.19」が得られる。「1.19」は、「強さに由来した重み(母音開始点)」の最初の値である。
なお、「強さに対応した重み(母音開始点間隔)」は、関係する2つの「強さに由来した重み(母音開始点)」の値を平均したものである。例えば、強さに対応した重み「0.09」は、「(1.19+0.80)/2」により算出される。
次に、評定値算出手段17044は、総合点を算出する。評定値算出手段17044は、図23の「重み付き誤差」の各属性値(誤差量)のRMSを算出する。このRMSを重み付きRMSという。なお、RMSは、「√(Σ(T(i)−T(i))/n)」(二乗平均の平方根)である。T(i)、T(i)は、上述した定義を参照できる。
そして、評定値算出手段17044は、「重み付きRMS(評定値)=28.290」を得る。
次に、評定結果出力部105は、評定結果(評定値)を出力する。出力態様は、問わない。出力態様の例は、図16である。
なお、重み付けを行わない場合の評定値は、図23の属性値「母音開始点間隔誤差(ms)」をパラメータとして算出できる。ここで、RMSの式に代入すると、重み付けしない場合は、「評定値=18.371」と算出される。
したがって、第一の例においては、重み付けをし、人間の知覚に近い音響評価を行った結果、重み付けしない画一的な評定処理の場合と比較して、より誤差が強調された。
次に、具体的な音響評定装置の評定処理の第二の例について説明する。第一の例の場合と同様に、例えば、第二のアメリカ人の学習者が、日本語の練習をしている。そして、学習者は、音響「ゆうがたまでつづいた」と発音した、とする。本音響評定装置は、この発音が日本語の発音として良いか否かを定量的に算出して、出力するものとする。
本音響評定装置の模範評定情報格納部103は、模範的な日本語の発音の「ゆうがたまでつづいた」の音情報である模範評定情報を格納している。
そして、音響受付部101は、学習者が発声した音響「ゆうがたまでつづいた」を受け付ける。
次に、時間構造情報抽出部102は、音響受付部101が受け付けた音響の時間構造情報を取得する。つまり、時間構造情報抽出部102は、図24に示す時間構造情報を取得する。
次に、第一時間構造情報取得手段1041は、図24の音響情報から、一まとまりの音響部分である最初の文節の音響「ゆうがたまでつづいた」の時間構造情報を取得する。つまり、ここでの一まとまりの音響部分も、音響受付部101が受け付けた音響全体である。
次に、第二時間構造情報取得手段1042は、模範評定情報に基づく模範時間構造情報のうち、音響「ゆうがたまでつづいた」に対応する時間構造情報である第二時間構造情報を取得する。つまり、第二時間構造情報取得手段1042は、図22に示す第二時間構造情報を取得する。
次に、評定値算出手段1044は、第一時間構造情報と第二時間構造情報を比較し、各音韻の時間長の差を取得する。かかる差異が、図25の表の「母音開始点間隔誤差(ms)」である。この属性値「母音開始点間隔誤差(ms)」が示す値は、第一時間構造情報の母音開始点間隔と第二時間構造情報の母音開始点間隔の差である。
次に、評定値算出手段1044は、上記第一の例と同様に、前半部強調評価ルール、音強度強調ルールに基づいて、図25の表の「母音開始点間隔誤差(ms)」の値に、重み付けを行う。
そして、評定値算出手段1044は、図25の表の「重み付き誤差」を得る。つまり、評定値算出手段1044は、先に算出した「母音開始点間隔誤差(ms)」の各属性値に、対応する属性値「先頭からの個数に対応した重み(母音開始点間隔)」と、属性値「強さに対応した重み(母音開始点間隔)」を乗じて、属性値「重み付き誤差」を得る。この属性値が、前半部強調評価ルール、および音強度強調ルールを適用して重み付けした、音響の評価結果である。
次に、評定値算出手段17044は、総合点を算出する。評定値算出手段17044は、図25の「重み付き誤差」の各属性値(誤差量)のRMSを算出する。
そして、評定値算出手段17044は、「重み付きRMS(評定値)=12.340」を得る。
次に、評定結果出力部105は、評定結果(評定値)を出力する。出力態様は、問わない。出力態様の例は、図16である。
なお、重み付けを行わない場合の評定値は、図25の属性値「母音開始点間隔誤差(ms)」をパラメータとして算出できる。ここで、RMSの式に代入すると、重み付けしない場合は、「評定値=23.117」と算出される。
したがって、第二の例においては、重み付けをし、人間の知覚に近い音響評価を行った結果、重み付けしない画一的な評定処理の場合と比較して、より誤差が減縮された。
以上、本実施の形態によれば、音の強さが時間構造のずれに与える影響を加味した、音響の評定ができる。そのため、本実施の形態における音響評定装置は、さらに人間の知覚に合致した音響の評定が可能となる。
なお、本実施の形態の具体例において適用した重み付けのルールは、前半部強調評価ルール、音強度強調ルールだけであった。ただし、本実施の形態において、他の重み付けのルールを1以上、適用しても良い。他の重み付けのルールの例としては、上述した規則強調ルール、前半伸長強調ルール、および後半圧縮強調ルールなどがある。かかることは、他の実施の形態においても同様である。
また、本実施の形態において、時間構造情報抽出部102や第二時間構造情報取得手段1042等は、各音韻の開始点の時点(ms)を取得した(図26(a)参照)。しかし、時間構造情報抽出部102や第二時間構造情報取得手段1042等は、各音韻の開始点と終了点の時点(ms)を取得しても良い。各音が明示的な継続時間長を持つ場合に、開始点だけでなく、継続時間長すなわち開始点と終了点との間隔を用いて、音響の評定を行うことは好適である。図26(a)の標準音響(R6)の音声では、母音開始点のみが検出されているが、時間構造情報抽出部102等は、全音韻の開始点、および終了点を検出して、音韻境界における強さの変化を取り出しても良い。かかる場合、時間構造情報抽出部102等は、標準音響(R7)(図26(c)参照)のような時間構造を持つ時間構造情報を得ることとなる。
さらに、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音響を受け付ける音響受付ステップと、前記音響受付ステップで受け付けた音響から、当該音響の時間構造に関する情報である時間構造情報を抽出する時間構造情報抽出ステップと、前記時間構造情報抽出ステップで抽出した時間構造情報と格納されている模範評定情報に基づく模範時間構造情報に基づいて前記音響の評定を行い、かつ所定のルールに基づいて前記音響の評定を行う評定ステップと、前記評定ステップにおける評定結果を出力する評定結果出力ステップを実行させるためのプログラム、である。
また、上記プログラムに対して、前記所定のルールは、音強度取得手段が取得した2以上の音強度の値が異なる場合には、音強度に応じた重みが加味され、評定値が算出されるというルールである音強度強調ルールであり、前記評定ステップは、前記時間構造情報抽出ステップで抽出した時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第一時間構造情報を取得する第一時間構造情報取得ステップと、前記模範評定情報に基づく模範時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第二時間構造情報を取得する第二時間構造情報取得ステップと、前記模範評定情報に基づく音の強さを示す情報である音強度を取得する音強度取得ステップと、前記第一時間構造情報と前記第二時間構造情報を比較し、前記音強度強調ルールに基づいて評定値を算出する評定値算出ステップを具備するプログラム、である。
(実施の形態3)
図27は、本実施の形態における音響出力装置のブロック図である。
音響出力装置は、音響受付部101、時間構造情報抽出部102、模範評定情報格納部103、評定部104、評定結果出力部105、時間構造情報部分補正部2101、補正音響構成部2102、音響出力部2103を具備する。
時間構造情報部分補正部2101は、第一時間構造情報取得手段1041、第二時間構造情報取得手段1042、前半部分補正手段21011、規則部分補正手段21012、前半伸長部分補正手段21013、後半圧縮部分補正手段21014を具備する。
時間構造情報部分補正部2101は、時間構造情報抽出部102が抽出した時間構造情報と、模範評定情報に基づく模範時間構造情報に基づいて、時間構造情報の一部の時間構造情報を補正する。時間構造情報抽出部102が抽出した時間構造情報の中で、模範評定情報に基づく模範時間構造情報と一致していない時間構造情報を補正する場合に、時間構造情報部分補正部2101は、当該時間構造情報の一部のみを補正する。かかる時間構造情報の一部を選択するアルゴリズムは種々ある。かかるアルゴリズムの例は、以下で述べる前半部分補正手段21011、規則部分補正手段21012、前半伸長部分補正手段21013、および後半圧縮部分補正手段21014が補正対象の時間構造情報を選択するアルゴリズムである。時間構造情報部分補正部2101は、通常、MPUやメモリ等から実現され得る。時間構造情報部分補正部2101の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
前半部分補正手段21011は、第一時間構造情報のうちの前半部の情報のずれを、対応する第二時間構造情報に基づいて補正をする。前半部とは、所定のまとまりのある音響部分の、第一時間構造情報のうちの前半の部分である。前半部は、対象の時間構造情報の最初の時間構造情報を含み、その時間幅は問わない。つまり、前半部の幅は、何でも良い。前半部分補正手段21011は、通常、MPUやメモリ等から実現され得る。前半部分補正手段の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
規則部分補正手段21012は、第二時間構造情報が規則的であることを示す情報であり、当該第二時間構造情報に対応する第一時間構造情報と、当該第二時間構造情報にずれが存在する場合に、第一時間構造情報のうちの当該ずれを第二時間構造情報に基づいて補正する。規則部分補正手段21012は、通常、MPUやメモリ等から実現され得る。規則部分補正手段21012の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
前半伸長部分補正手段21013は、第二時間構造情報の前半部と第一時間構造情報前半部と比較し、第一時間構造情報の前半部の情報が示す時間情報が、対応する第二時間構造情報の前半部の情報が示す時間情報と比較して伸びていることを示す場合に、当該第一時間構造情報の該当部分を、第二時間構造情報に基づいて補正する。前半部の幅は問わないことは上述した通りである。前半伸長部分補正手段21013は、通常、MPUやメモリ等から実現され得る。前半伸長部分補正手段21013の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
後半圧縮部分補正手段21014は、第二時間構造情報の後半部と第一時間構造情報後半部と比較し、第一時間構造情報の後半部の情報が示す時間情報が、対応する第二時間構造情報の後半部の情報が示す時間情報と比較して縮んでいることを示す場合に、当該第一時間構造情報の該当部分を、第二時間構造情報に基づいて補正する。後半部は、対象の時間構造情報の最後の時間構造情報を含み、その時間幅は問わない。つまり、後半部の幅は、何でも良い。後半圧縮部分補正手段21014は、通常、MPUやメモリ等から実現され得る。後半圧縮部分補正手段の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
補正音響構成部2102は、時間構造情報部分補正部2101が一部を補正して得た時間構造情報と、音響受付部103が受け付けた音響に基づいて、補正された音響を構成する。つまり、補正音響構成部2102は、音響受付部103が受け付けた音響の時間構造を、時間構造情報部分補正部2101が一部を補正して得た時間構造情報が示す時間構造に変更し、新たな音響を構成する。補正音響構成部2102は、通常、音響受付部103が受け付けた音響のうち、時間構造以外の他の特徴量を変更しないが、他の要因等により、時間構造以外の他の特徴量を変更しても良い。補正音響構成部2102は、通常、MPUやメモリ等から実現され得る。補正音響構成部の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
音響出力部2103は、補正音響構成部2102が構成した音響を出力する。出力とは、通常、スピーカーからの音出力であるが、音響の波形のディスプレイへの表示、プリンタへの印字、外部の装置への音響のデータの送信、記録媒体への蓄積等を含む概念である。音響出力部2103は、スピーカー等の出力デバイスを含むと考えても含まないと考えても良い。音響出力部2103は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
次に、音響出力装置の動作について図28、図29のフローチャートを用いて説明する。なお、図28のフローチャートにおいて、図2のフローチャートと異なるステップについてのみ説明する。
(ステップS2801)時間構造情報部分補正部2101は、i番目の音響部分を補正し、補正音響構成部2102は、補正した音響を構成する。音響部分を補正する音響補正処理について、図29のフローチャートを用いて説明する。
(ステップS2802)音響出力部2103は、ステップS201で構成した補正音響を出力する。
次に、音響出力装置の音響補正処理について図29のフローチャートを用いて説明する。なお、図29のフローチャートにおいて、図4のフローチャートと異なるステップについてのみ説明する。
(ステップS2901)時間構造情報部分補正部2101は、ステップS406で取得したi番目の時間構造情報の差が、所定値以上であるか否かを判断する。ここでは、模範時間構造情報と比較して、所定値未満の差しかない時間構造情報に対しては、補正処理を行わないとする。
(ステップS2902)規則部分補正手段21012は、ステップS403で一時格納した判断結果が規則的であるとの判断結果であるか否かを判断する。規則的であるとの判断結果である場合はステップS2903に行き、規則的であるとの判断結果でない場合はステップS2905に行く。
(ステップS2903)時間構造情報部分補正部2101は、模範評定情報に基づく模範時間構造情報に基づいて、i番目の第一時間構造情報を補正する。
(ステップS2904)時間構造情報部分補正部2101は、カウンタiを1、インクリメントする。ステップS405に戻る。
(ステップS2905)前半部分補正手段21011は、一まとまりの音響部分の中で、i番目の時間構造情報に対応する時点が、前半部であるか否かを判断する。前半部であればステップS2903に行き、前半部でなければステップS2906に行く。なお、いずれの範囲を前半部であるとするかは問わない。
(ステップS2906)後半圧縮部分補正手段21014は、一まとまりの音響部分の中で、i番目の時間構造情報に対応する時点が、後半部であるか否かを判断する。後半部であればステップS2907に行き、後半部でなければステップS2904に行く。なお、いずれの範囲を後半部であるとするかは問わない。
(ステップS2907)後半圧縮部分補正手段21014は、模範時間構造情報が示す時間間隔に対して、評定対象の音響部分の時間構造情報が、時間的に圧縮しているか否かを判断する。圧縮していればステップS2903に行き、圧縮していなければステップS2904に行く。
(ステップS2908)補正音響構成部2102は、ステップS203におけるi番目の音響部分の時間構造を、補正後の時間構造情報に変更し、音響を合成する。上位関数にリターンする。
なお、図28のフローチャートにおいて、図4のフローチャートにおける動作に関して重複するので、各重複する処理は、一度だけ行うことが好適である。処理説明の分かりやすさを担保するために、また、評定処理と音響補正処理を区分して説明するために、図28のフローチャートにおいて、図4のフローチャートと重複する処理が存在する。
また、図28のフローチャートにおいて、前半伸長部分補正手段21013は、時間構造情報の補正のために動作しなかった。前半部分補正手段21011が前半部の補正を行ったからである。図28のフローチャートにおいて、前半部分補正手段21011が補正処理を行わずに、前半伸長部分補正手段21013が、第二時間構造情報の前半部と第一時間構造情報前半部と比較し、第一時間構造情報の前半部の情報が示す時間情報が、対応する第二時間構造情報の前半部の情報が示す時間情報と比較して伸びていることを示す場合に、当該第一時間構造情報の該当部分を、第二時間構造情報に基づいて補正するようにしても良い。
また、上記の時間構造情報部分補正部2101は、時間構造情報抽出部102が抽出した時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第一時間構造情報を取得する第一時間構造情報取得手段1041と、模範評定情報に基づく模範時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第二時間構造情報を取得する第二時間構造情報取得手段1042を具備し、第二時間構造情報が規則的ではない場合に、当該第二時間構造情報に対応する第一時間構造情報の後半部は補正しないことは好適である。当該第二時間構造情報に対応する第一時間構造情報の後半部は、人間の知覚に及ぼす影響は少なく、補正しなくても、人間が受ける印象はさほど変化しないからである。
以上、本実施の形態によれば、少ない処理量で、人間の知覚に違和感がない、良好な音響を出力することができる。
なお、本実施の形態における音響出力装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、音響の入力を受け付ける音響受付ステップと、前記音響受付ステップで受け付けた音響から、当該音響の時間構造に関する情報である時間構造情報を抽出する時間構造情報抽出ステップと、前記時間構造情報抽出ステップで抽出した時間構造情報と、格納している模範評定情報に基づく模範時間構造情報に基づいて、前記時間構造情報の一部の時間構造情報を補正する時間構造情報部分補正ステップと、前記時間構造情報部分補正ステップで一部を補正して得た時間構造情報と、前記音響受付部が受け付けた音響に基づいて、補正された音響を構成する補正音響構成ステップと、前記補正音響構成ステップで構成した音響を出力する音響出力ステップを実行させるためのプログラム、である。
また、上記プログラムに対して、前記時間構造情報部分補正ステップは、前記時間構造情報抽出ステップで抽出した時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第一時間構造情報を取得する第一時間構造情報取得ステップと、前記模範評定情報に基づく模範時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第二時間構造情報を取得する第二時間構造情報取得ステップと、前記第一時間構造情報のうちの前半部の情報のずれを、対応する第二時間構造情報に基づいて補正をする前半部分補正ステップを具備するプログラム、である。
また、上記プログラムに対して、前記時間構造情報部分補正ステップは、前記時間構造情報抽出ステップで抽出した時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第一時間構造情報を取得する第一時間構造情報取得ステップと、前記模範評定情報に基づく模範時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第二時間構造情報を取得する第二時間構造情報取得ステップと、前記第二時間構造情報が規則的であることを示す情報であり、当該第二時間構造情報に対応する第一時間構造情報と、当該第二時間構造情報にずれが存在する場合に、前記第一時間構造情報のうちの当該ずれを前記第二時間構造情報に基づいて補正する規則部分補正ステップを具備するプログラム、である。
また、上記プログラムに対して、前記時間構造情報部分補正ステップは、前記時間構造情報抽出ステップで抽出した時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第一時間構造情報を取得する第一時間構造情報取得ステップと、前記模範評定情報に基づく模範時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第二時間構造情報を取得する第二時間構造情報取得ステップを具備し、前記第二時間構造情報が規則的ではない場合に、当該第二時間構造情報に対応する第一時間構造情報の後半部は補正しないことを特徴とするプログラム、である。
また、上記プログラムに対して、前記時間構造情報部分補正ステップは、前記時間構造情報抽出ステップで抽出した時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第一時間構造情報を取得する第一時間構造情報取得ステップと、前記模範評定情報に基づく模範時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第二時間構造情報を取得する第二時間構造情報取得ステップと、前記第二時間構造情報の前半部と前記第一時間構造情報前半部と比較し、前記第一時間構造情報の前半部の情報が示す時間情報が、対応する前記第二時間構造情報の前半部の情報が示す時間情報と比較して伸びていることを示す場合に、当該第一時間構造情報の該当部分を、前記第二時間構造情報に基づいて補正する前半伸長部分補正ステップ、および/または前記第二時間構造情報の後半部と前記第一時間構造情報後半部と比較し、前記第一時間構造情報の後半部の情報が示す時間情報が、対応する前記第二時間構造情報の後半部の情報が示す時間情報と比較して縮んでいることを示す場合に、当該第一時間構造情報の該当部分を、前記第二時間構造情報に基づいて補正する後半圧縮部分補正ステップを具備するプログラム、である。
また、上記プログラムに対して、コンピュータに、前記時間構造情報抽出ステップで抽出した時間構造情報と、前記模範評定情報に基づく模範時間構造情報に基づいて前記音響の評定を行い、かつ所定のルールに基づいて前記音響の評定を行う評定ステップと、前記評定ステップにおける評定結果を出力する評定結果出力ステップをさらに実行させるプログラム、である。
(実施の形態4)
本実施の形態において、上述した事象の検出方法について説明する。事象の検出は、例えば、以下のような事象検出装置により行う。つまり、上記の時間構造情報抽出部102が本実施の形態で述べる事象検出装置を具備していることとなる。
図30に、本実施の形態に係る事象検出装置22のブロック図を示す。事象検出装置22は、入力音響信号である音声信号20から、事象検出出力24を出力するためのものである。事象検出装置22は、音声信号20に対して人間の外耳及び中耳の特性を反映したフィルタ処理を行なうためのバンドパスフィルタ30と、バンドパスフィルタ30の出力を帯域分割するための、人間の内耳特性を模した定Q型ガンマ・トーン・フィルタ・バンク32と、定Q型ガンマ・トーン・フィルタ・バンク32の出力に対し、フィルタ・チャネルごとに人間の聴覚特性を模した処理を行ない、さらに細かい変動を除去した上で帯域ごとの事象生起の可能性を示す事象情報を検出するための複数の帯域別処理部34とを含む。
事象検出装置22はさらに、これら複数の帯域別処理部34の出力の算術平均を算出す
ることにより事象検出情報を統合化し、新規事象発生の可能性を示す指標として出力する
ための情報統合部36と、情報統合部36の出力が極大値をとる時間軸上の点を新規事象
発生点として事象検出出力24を出力するための極大値検出部38とを含む。
図31に、帯域別処理部34の構成を示す。いずれの帯域別処理部34も同様の構成を持つ。帯域別処理部34は、入力されるフィルタ・チャネル信号に対して、人間の蝸牛神経核以降の生体内情報を模擬する信号処理を行なうための半波整流部50及び対数圧縮処理部52と、対数圧縮処理部52の出力から細かい変動を除去するためのローパスフィルタ54と、ローパスフィルタ54の出力に対し時間微分を行なうことにより、この帯域の活性量の変化率の指標となる信号を出力するための時間微分処理部56と、時間微分処理部56が出力する変化率に対し、事象の開始点のみをマークするために、所定のしきい値よりも値の小さい部分および負の部分をクリップして所定の値にフロアリングし、新規事象の発生点らしさを表す指標を出力するためのフロアリング処理部58とを含む。
フロアリングするしきい値を小さくとると、比較的小さな変動までも事象の開始点として検出され、大きくとると小さな変動は無視される。したがって、しきい値を調整することにより、どの程度の大きさの変動を事象の開始点とするか、そのレベルを調整できる。
次に、上記した構成を持つ事象検出装置22の動作について説明する。図30において、音声信号20に対してはバンドパスフィルタ30によるバンドパスフィルタ処理が施され、外耳及び内耳の特性を反映した信号となる。この信号は定Q型ガンマ・トーン・フィルタ・バンク32に与えられ、帯域分割される。
図31によれば、帯域別処理部34の各々に与えられたフィルタ・チャネル信号に対して半波整流部50による半波整流及び対数圧縮処理部52による対数圧縮がされ、その結果、人間の蝸牛神経核以降の生体内情報を模した信号が得られる。この信号をローパスフィルタ54に通すことで、信号の微小な変動が除去される。ローパスフィルタ54の出力に関する全帯域の聴覚的スペクトログラムを図32(A)に示す。なお、図32(B)には比較のために、同様の処理を一般的なFFT(Fast Fourier Transform)分析を基に行なった場合に得られる聴覚的スペクトログラムを示す。
また、図31において、ローパスフィルタ54の出力を時間微分処理部56に与えることにより、このフィルタ・チャネルの活性量の変化率の指標とする。時間微分処理部56の出力として得られる、聴覚的スペクトログラムに基づく各帯域の活性量の変化率を図33(A)に示す。図33(B)には図32(B)と同様、FFT処理に基づく各帯域の活性量の変化率を示す。図33において、黒い部分ほど新規事象が開始したことを知らせる手掛りを多く送っていることになる。白い部分は反対に音の終了点に対応する。
新規事象の開始点のみをマークするため、時間微分処理部56の出力をフロアリング処理部58に与える。フロアリング処理部58により、時間微分処理部56の出力のうち、フロアリングのためのしきい値よりも小さな部分はしきい値にフロアリングされる。具体的には、信号の値としきい値とのうちの最大値で信号の値を置換する。この処理の結果を図34(A)に示す。FFT処理に基づくものを図34(B)に示す。この結果、帯域ごとに、新規事象の発生点らしさを表す指標が得られる。具体的には、図34(A)において、黒い部分が、その帯域において新規事象が発生している可能性が高いことを示している。
再び図30を参照して、このようにして帯域ごとに得られた帯域別処理部34の出力を加算平均する。その結果得られた値を時間の関数として示したのが図35(A)である。図32〜図34と同様、FFTに基づいて得られた関数を図35(B)に示す。図35(A)に示すグラフは、帯域全体から得られた、新規事象発生の可能性を表す指標と考えられる。したがってその極大値を調べ、その極大値に対応する時間軸上の点を事象生起点とする。
前述したとおり、フロアリングのしきい値の大きさを調整することにより、最終的に得られる極大値の数を調整することができる。すなわち、フロアリング処理のしきい値を上げることによって極大値の数は減少し、下げると増大する。
図35(A)と図35(B)とを比較すると容易に分かるように、同じフロアリングしきい値を用いているにもかかわらず、本実施の形態によれば適正な数の極大値が得られているのに対し、FFT処理によるものでは極大値の数が多く、不要なものまで現れていることが分かる。FFT処理による場合、このような不要な極大値を消そうとしてフロアリングのしきい値を大きくすると、必要な極大値まで消えてしまうことが起きやすい。
本実施の形態での処理と、FFTに基づく処理との基本的な相違は、帯域分割の仕方にある。例えば通常のFFT処理では、フォルマントの僅かな移動が高域においては異なる
周波数チャネルへのエネルギーの移動となり、そのチャネルにおける新しい事象の発生として潜在力を持ってしまう。それに対して本実施の形態では、帯域分割を定Q型ガンマ・トーン・フィルタ・バンク32により行なっているため、高域に行くにつれバンド幅は中心周波数に比例的に広がる。そのため、FFT処理による場合のような事態を招きにくくなる。この相違が、図35(A)と図35(B)との相違となって現れている。
なお、フィルタ・バンクとしては上記した定Q型フィルタが望ましいが、中心周波数の単調関数としてバンド幅が広がるようなフィルタ・バンクであれば、上記した効果をある程度期待できる。
なお、本発明の音響評定装置や音響出力装置で用いる事象の検出方法は、上記した検出方法に限らないことはいうまでもない。
また、図36は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の音響評定装置、または音響出力装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図36は、このコンピュータシステム300の概観図であり、図37は、システム300のブロック図である。
図36において、コンピュータシステム300は、FD(Flexible Disk)ドライブ、CD−ROM(Compact Disk Read Only Memory)ドライブを含むコンピュータ301と、キーボード302と、マウス303と、モニタ304と、マイク305と、スピーカー306とを含む。
図37において、コンピュータ301は、FDドライブ3011、CD−ROMドライブ3012に加えて、CPU(Central Processing Unit)3013と、CPU3013、CD−ROMドライブ3012及びFDドライブ3011に接続されたバス3014と、ブートアッププログラム等のプログラムを記憶するためのROM(Read−Only Memory)3015と、CPU3013に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM(Random Access Memory)3016と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3017とを含む。ここでは、図示しないが、コンピュータ301は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
コンピュータシステム300に、上述した実施の形態の音響評定装置、または音響出力装置の機能を実行させるプログラムは、CD−ROM3101、またはFD3102に記憶されて、CD−ROMドライブ3012またはFDドライブ3011に挿入され、さらにハードディスク3017に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ301に送信され、ハードディスク3017に記憶されても良い。プログラムは実行の際にRAM3016にロードされる。プログラムは、CD−ROM3101、FD3102またはネットワークから直接、ロードされても良い。
プログラムは、コンピュータ301に、上述した実施の形態の音響評定装置、または音響出力装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム300がどのように動作するかは周知であり、詳細な説明は省略する。
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
以上のように、本発明にかかる音響評定装置は、音響の良し悪しを評価する場合に、人間の知覚に合致した態様で評価できる、という効果を有し、語学学習装置等として有用である。
実施の形態1における音響評定装置のブロック図 同音響評定装置の動作について説明するフローチャート 同音響評定装置の動作について説明するフローチャート 同音響評定装置の動作について説明するフローチャート 同時間構造情報と模範時間構造情報の差の算出方法を説明する図 同時間構造情報と模範時間構造情報の差の算出方法を説明する図 同重み付けの例を説明する図 同重み付けの例を説明する図 同時間構造情報抽出部が取得した時間構造情報を示す図 同音響部分に対応する時間構造情報を示す図 同正規化後の時間構造情報を示す図 同第二時間構造情報取得手段が取得した時間構造情報を示す図 同両時間構造情報の「差異(絶対値)」を示す図 同重み付けの例、評定結果を説明する図 同評定結果を説明する図 同評定値算出手段の出力例を示す図 実施の形態2における音響評定装置のブロック図 同音響評定装置の動作について説明するフローチャート 同音強度取得手段が取得する音強度の規則性について説明する図 同音強度の規則性の判断方法について説明する図 同時間構造情報抽出部が取得した時間構造情報を示す図 同第二時間構造情報取得手段が取得した時間構造情報を示す図 同評定値算出手段が算出した評定値を示す図 同時間構造情報抽出部が取得した時間構造情報を示す図 同評定値算出手段が算出した評定値を示す図 同時間構造情報の取得方法について説明する図 同実施の形態3における音響出力装置のブロック図 同音響出力装置の動作について説明するフローチャート 同音響出力装置の動作について説明するフローチャー 同実施の形態4に係る事象検出装置のブロック図 同帯域別処理部の構成を示す図 同ローパスフィルタの出力に関する全帯域の聴覚的スペクトログラム等を示す図 同聴覚的スペクトログラムに基づく各帯域の活性量の変化率等を示す図 同フロアリング処理部の処理結果等を示す図 同帯域別処理部の処理の結果得られた値を時間の関数として示した図 同音響評定装置等を構成するコンピュータシステムの概観図 同音響評定装置等を構成するコンピュータのブロック図
符号の説明
101 音響受付部
102 時間構造情報抽出部
103 音響受付部
103 模範評定情報格納部
104、1704 評定部
105 評定結果出力部
1041 第一時間構造情報取得手段
1042 第二時間構造情報取得手段
1043 ルール格納手段
1044、17044 評定値算出手段
2101 時間構造情報部分補正部
2102 補正音響構成部
2103 音響出力部
17041 音強度取得手段
21011 前半部分補正手段
21012 規則部分補正手段
21013 前半伸長部分補正手段
21014 後半圧縮部分補正手段

Claims (13)

  1. 音響を受け付ける音響受付部と、
    前記音響受付部が受け付けた音響から、当該音響の時間構造に関する情報である時間構造情報を抽出する時間構造情報抽出部と、
    音響の良し悪しを評定するための情報である模範評定情報を格納している模範評定情報格納部と、
    前記時間構造情報抽出部が抽出した時間構造情報と前記模範評定情報に基づく模範時間構造情報に基づいて前記音響の評定を行い、かつ所定のルールに基づいて前記音響の評定を行う評定部と、
    前記評定部における評定結果を出力する評定結果出力部を具備する音響評定装置。
  2. 前記評定部は、
    前記時間構造情報抽出部が抽出した時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第一時間構造情報を取得する第一時間構造情報取得手段と、
    前記模範評定情報に基づく模範時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第二時間構造情報を取得する第二時間構造情報取得手段と、
    前記第一時間構造情報のうちの前半部の情報の評価値を、後半部の情報の評価値より重く評価することを示すルールである前半部強調評価ルールを格納しているルール格納手段と、
    前記第一時間構造情報と前記第二時間構造情報を比較し、前記ルール格納手段に格納されているルールに基づいて評定値を算出する評定値算出手段を具備する請求項1記載の音響評定装置。
  3. 前記評定部は、
    前記時間構造情報抽出部が抽出した時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第一時間構造情報を取得する第一時間構造情報取得手段と、
    前記模範評定情報に基づく模範時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第二時間構造情報を取得する第二時間構造情報取得手段と、
    前記第二時間構造情報が規則的であることを示す情報であり、当該第二時間構造情報に対応する第一時間構造情報と、当該第二時間構造情報にずれが存在する場合に、当該ずれを他のずれと比較して重く評価することを示すルールである規則強調ルールを格納しているルール格納手段と、
    前記第一時間構造情報と前記第二時間構造情報を比較し、前記ルール格納手段に格納されているルールに基づいて評定値を算出する評定値算出手段を具備する請求項1記載の音響評定装置。
  4. 前記評定部は、
    前記時間構造情報抽出部が抽出した時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第一時間構造情報を取得する第一時間構造情報取得手段と、
    前記模範評定情報に基づく模範時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第二時間構造情報を取得する第二時間構造情報取得手段と、
    前記第二時間構造情報が示す拍が規則的でなく、かつ当該第二時間構造情報に対応する第一時間構造情報の後半部と、当該第二時間構造情報の後半部にずれが存在する場合に、当該ずれを他のずれと比較して軽く評価することを示すルールである不規則後半部非強調ルールを格納しているルール格納手段と、
    前記第一時間構造情報と前記第二時間構造情報を比較し、前記ルール格納手段に格納されているルールに基づいて評定値を算出する評定値算出手段を具備する請求項1記載の音響評定装置。
  5. 前記評定部は、
    前記時間構造情報抽出部が抽出した時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第一時間構造情報を取得する第一時間構造情報取得手段と、
    前記模範評定情報に基づく模範時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第二時間構造情報を取得する第二時間構造情報取得手段と、
    前記第二時間構造情報の前半部と前記第一時間構造情報の前半部と比較し、前記第一時間構造情報の前半部の情報が示す時間情報が、対応する前記第二時間構造情報の前半部の情報が示す時間情報と比較して伸びていることを示す場合に、当該伸びている部分のずれを、他のずれと比較して重く評価することを示すルールである前半伸長強調ルールと、
    前記第二時間構造情報の後半部と前記第一時間構造情報の後半部と比較し、前記第一時間構造情報の後半部の情報が示す時間情報が、対応する前記第二時間構造情報の後半部の情報が示す時間情報と比較して縮んでいることを示す場合に、当該縮んでいる部分のずれを、他のずれと比較して重く評価することを示すルールである後半圧縮強調ルールを格納しているルール格納手段と、
    前記第一時間構造情報と前記第二時間構造情報を比較し、前記ルール格納手段に格納されているルールに基づいて評定値を算出する評定値算出手段を具備する請求項1記載の音響評定装置。
  6. 前記評定部は、
    前記時間構造情報抽出部が抽出した時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第一時間構造情報を取得する第一時間構造情報取得手段と、
    前記模範評定情報に基づく模範時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第二時間構造情報を取得する第二時間構造情報取得手段と、
    前記模範評定情報に基づく音の強さを示す情報である音強度、または/および前記音響受付部が受け付けた音響の音強度を取得する音強度取得手段と、
    前記音強度取得手段が取得した2以上の音強度の値が異なる場合には、音強度に応じた重みが加味され、評定値が算出されるというルールである音強度強調ルールを格納しているルール格納手段と、
    前記第一時間構造情報と前記第二時間構造情報を比較し、前記ルール格納手段に格納されているルールに基づいて評定値を算出する評定値算出手段を具備する請求項1記載の音響評定装置。
  7. 音響の入力を受け付ける音響受付部と、
    前記音響受付部が受け付けた音響から、当該音響の時間構造に関する情報である時間構造情報を抽出する時間構造情報抽出部と、
    音響の良し悪しを評定するための情報である模範評定情報を格納している模範評定情報格納部と、
    前記時間構造情報抽出部が抽出した時間構造情報と、前記模範評定情報に基づく模範時間構造情報に基づいて、前記時間構造情報の一部の時間構造情報を補正する時間構造情報部分補正部と、
    前記時間構造情報部分補正部が一部を補正して得た時間構造情報と、前記音響受付部が受け付けた音響に基づいて、補正された音響を構成する補正音響構成部と、
    前記補正音響構成部が構成した音響を出力する音響出力部を具備する音響出力装置。
  8. 前記時間構造情報部分補正部は、
    前記時間構造情報抽出部が抽出した時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第一時間構造情報を取得する第一時間構造情報取得手段と、
    前記模範評定情報に基づく模範時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第二時間構造情報を取得する第二時間構造情報取得手段と、
    前記第一時間構造情報のうちの前半部の情報のずれを、対応する第二時間構造情報に基づいて補正をする前半部分補正手段を具備する請求項7記載の音響出力装置。
  9. 前記時間構造情報部分補正部は、
    前記時間構造情報抽出部が抽出した時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第一時間構造情報を取得する第一時間構造情報取得手段と、
    前記模範評定情報に基づく模範時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第二時間構造情報を取得する第二時間構造情報取得手段と、
    前記第二時間構造情報が規則的であることを示す情報であり、当該第二時間構造情報に対応する第一時間構造情報と、当該第二時間構造情報にずれが存在する場合に、前記第一時間構造情報のうちの当該ずれを前記第二時間構造情報に基づいて補正する規則部分補正手段を具備する請求項7記載の音響出力装置。
  10. 前記時間構造情報部分補正部は、
    前記時間構造情報抽出部が抽出した時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第一時間構造情報を取得する第一時間構造情報取得手段と、
    前記模範評定情報に基づく模範時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第二時間構造情報を取得する第二時間構造情報取得手段を具備し、
    前記第二時間構造情報が規則的ではない場合に、当該第二時間構造情報に対応する第一時間構造情報の後半部は補正しないことを特徴とする請求項7記載の音響出力装置。
  11. 前記時間構造情報部分補正部は、
    前記時間構造情報抽出部が抽出した時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第一時間構造情報を取得する第一時間構造情報取得手段と、
    前記模範評定情報に基づく模範時間構造情報のうち、所定のまとまりのある音響部分の時間構造情報である第二時間構造情報を取得する第二時間構造情報取得手段と、
    前記第二時間構造情報の前半部と前記第一時間構造情報前半部と比較し、前記第一時間構造情報の前半部の情報が示す時間情報が、対応する前記第二時間構造情報の前半部の情報が示す時間情報と比較して伸びていることを示す場合に、当該第一時間構造情報の該当部分を、前記第二時間構造情報に基づいて補正する前半伸長部分補正手段、および/または前記第二時間構造情報の後半部と前記第一時間構造情報後半部と比較し、前記第一時間構造情報の後半部の情報が示す時間情報が、対応する前記第二時間構造情報の後半部の情報が示す時間情報と比較して縮んでいることを示す場合に、当該第一時間構造情報の該当部分を、前記第二時間構造情報に基づいて補正する後半圧縮部分補正手段を具備する請求項7記載の音響出力装置。
  12. コンピュータに、
    音響を受け付ける音響受付ステップと、
    前記音響受付ステップで受け付けた音響から、当該音響の時間構造に関する情報である時間構造情報を抽出する時間構造情報抽出ステップと、
    前記時間構造情報抽出ステップで抽出した時間構造情報と格納されている模範評定情報に基づく模範時間構造情報に基づいて前記音響の評定を行い、かつ所定のルールに基づいて前記音響の評定を行う評定ステップと、
    前記評定ステップにおける評定結果を出力する評定結果出力ステップを実行させるためのプログラム。
  13. コンピュータに、
    音響の入力を受け付ける音響受付ステップと、
    前記音響受付ステップで受け付けた音響から、当該音響の時間構造に関する情報である時間構造情報を抽出する時間構造情報抽出ステップと、
    前記時間構造情報抽出ステップで抽出した時間構造情報と、格納している模範評定情報に基づく模範時間構造情報に基づいて、前記時間構造情報の一部の時間構造情報を補正する時間構造情報部分補正ステップと、
    前記時間構造情報部分補正ステップで一部を補正して得た時間構造情報と、前記音響受付部が受け付けた音響に基づいて、補正された音響を構成する補正音響構成ステップと、
    前記補正音響構成ステップで構成した音響を出力する音響出力ステップを実行させるためのプログラム。
JP2005071934A 2005-03-14 2005-03-14 音響評定装置、音響出力装置およびそのプログラム Pending JP2006251721A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005071934A JP2006251721A (ja) 2005-03-14 2005-03-14 音響評定装置、音響出力装置およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005071934A JP2006251721A (ja) 2005-03-14 2005-03-14 音響評定装置、音響出力装置およびそのプログラム

Publications (1)

Publication Number Publication Date
JP2006251721A true JP2006251721A (ja) 2006-09-21

Family

ID=37092240

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005071934A Pending JP2006251721A (ja) 2005-03-14 2005-03-14 音響評定装置、音響出力装置およびそのプログラム

Country Status (1)

Country Link
JP (1) JP2006251721A (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60245000A (ja) * 1984-05-21 1985-12-04 富士通株式会社 発声訓練装置
JPS61184598A (ja) * 1985-02-12 1986-08-18 松下電器産業株式会社 発音練習装置
JPH07191698A (ja) * 1993-12-27 1995-07-28 Tdk Corp 音声発声装置
JPH09330019A (ja) * 1996-06-12 1997-12-22 Nec Corp 発声訓練装置
JPH11143346A (ja) * 1997-11-05 1999-05-28 Seiko Epson Corp 語学練習用発話評価方法およびその装置並びに発話評価処理プログラムを記憶した記憶媒体

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60245000A (ja) * 1984-05-21 1985-12-04 富士通株式会社 発声訓練装置
JPS61184598A (ja) * 1985-02-12 1986-08-18 松下電器産業株式会社 発音練習装置
JPH07191698A (ja) * 1993-12-27 1995-07-28 Tdk Corp 音声発声装置
JPH09330019A (ja) * 1996-06-12 1997-12-22 Nec Corp 発声訓練装置
JPH11143346A (ja) * 1997-11-05 1999-05-28 Seiko Epson Corp 語学練習用発話評価方法およびその装置並びに発話評価処理プログラムを記憶した記憶媒体

Similar Documents

Publication Publication Date Title
US20190019500A1 (en) Apparatus for deep learning based text-to-speech synthesizing by using multi-speaker data and method for the same
US8916762B2 (en) Tone synthesizing data generation apparatus and method
JP6251145B2 (ja) 音声処理装置、音声処理方法およびプログラム
JP5961950B2 (ja) 音声処理装置
KR101325722B1 (ko) 사용자 입력 노래에 대응한 악보 생성 장치와 그 방법
KR101402805B1 (ko) 음성분석장치, 음성합성장치, 및 음성분석합성시스템
JP3673507B2 (ja) 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム
Labuschagne et al. The perception of breathiness: Acoustic correlates and the influence of methodological factors
US9514738B2 (en) Method and device for recognizing speech
JP2002091472A (ja) 音声言語の韻律表示装置、再生装置、類似度判定装置、音声言語処理装置、および記録媒体
JP2006227564A (ja) 音響評定装置、およびプログラム
JP4532862B2 (ja) 音声合成方法、音声合成装置および音声合成プログラム
JP6314884B2 (ja) 音読評価装置、音読評価方法、及びプログラム
JP5075865B2 (ja) 音声処理装置、方法、及びプログラム
JP2010060846A (ja) 合成音声評価システム及び合成音声評価方法
JP2006251721A (ja) 音響評定装置、音響出力装置およびそのプログラム
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP5106274B2 (ja) 音声処理装置、音声処理方法及びプログラム
Bennane et al. Synthesis of pathological voices and experiments on the effect of jitter and shimmer in voice quality perception
JP4963345B2 (ja) 音声合成方法及び音声合成プログラム
JP5752488B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP4580317B2 (ja) 音声合成装置および音声合成プログラム
CN113409762B (zh) 情感语音合成方法、装置、设备及存储介质
JP2008116826A (ja) 休止時間長算出装置及びそのプログラム、並びに音声合成装置
WO2011030424A1 (ja) 音声合成装置およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100615

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101014