JP3009642B2 - 音声言語処理単位変換装置 - Google Patents

音声言語処理単位変換装置

Info

Publication number
JP3009642B2
JP3009642B2 JP9289634A JP28963497A JP3009642B2 JP 3009642 B2 JP3009642 B2 JP 3009642B2 JP 9289634 A JP9289634 A JP 9289634A JP 28963497 A JP28963497 A JP 28963497A JP 3009642 B2 JP3009642 B2 JP 3009642B2
Authority
JP
Japan
Prior art keywords
processing unit
speech
language processing
unit
symbol
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP9289634A
Other languages
English (en)
Other versions
JPH11126091A (ja
Inventor
寿幸 竹澤
逞 森元
Original Assignee
株式会社エイ・ティ・アール音声翻訳通信研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社エイ・ティ・アール音声翻訳通信研究所 filed Critical 株式会社エイ・ティ・アール音声翻訳通信研究所
Priority to JP9289634A priority Critical patent/JP3009642B2/ja
Publication of JPH11126091A publication Critical patent/JPH11126091A/ja
Application granted granted Critical
Publication of JP3009642B2 publication Critical patent/JP3009642B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、自由発話音声認識
装置と自由発話音声翻訳装置との間、もしくは、自由発
話音声認識装置と自由発話音声理解装置との間に挿入さ
れ、発話音声の入力単位の音声認識結果を翻訳や言語理
解の単位に変換するための音声言語処理単位変換装置に
関する。
【0002】
【従来の技術及び発明が解決しようとする課題】従来の
音声翻訳装置又は音声対話システムへの入力は、文節区
切りのようなゆっくり丁寧に発話された文を単位とする
音声であった。しかしながら、自然で自発的な発話を対
象とする音声翻訳装置又は音声対話システムへの入力と
しての発話単位は文に限定できない。
【0003】一方、言語翻訳処理における処理単位は文
である。書き言葉を対象とする自然言語処理システムに
おける処理単位も一般に文である。話し言葉を対象とす
る言語翻訳処理における処理単位も文である。音声対話
システムにおける問題解決器のための解釈の処理単位も
暗黙の内に文又は文相当のものを想定している。
【0004】自由発話音声を対象とする音声翻訳装置又
は音声対話システムを構築するためには、自由な入力単
位を文又は文相当の言語処理単位に変換する必要がある
が、このような方法及び装置は従来無かった。
【0005】本発明の目的は以上の問題点を解決し、自
由な入力単位を文又は文相当の言語処理単位に適切に変
換することができる音声言語処理単位変換装置を提供す
ることにある。
【0006】
【課題を解決するための手段】本発明に係る請求項1記
載の音声言語処理単位変換装置は、任意の入力単位で自
由発話された入力発声音声を音声認識した結果の単語列
を、文の単位又は文に相当する単位である言語処理単位
に変換して出力する音声言語処理単位変換装置であっ
て、形態素解析されたテキストデータに基づいて複数の
単語及び品詞並びに対して句点に対応する節境界らしさ
を表わすスコアを予め計算して統計モデルとして記憶す
る第1の記憶装置と、形態素解析されたテキストデータ
に基づいて句点挿入箇所の韻律情報の経験的知識を予め
抽出して経験的規則として記憶する第2の記憶装置と、
上記統計モデル及び上記経験的規則を参照して、かつ無
音区間を検出して、上記音声認識した結果の単語列につ
いて、1つの入力単位の音声認識結果を複数の言語処理
単位に分割する分割処理と、複数の入力単位の音声認識
結果を1つの言語処理単位に接合する接合処理を実行す
ることにより、上記音声認識した結果の単語列を、上記
言語処理単位に変換して出力する処理単位変換手段とを
備えたことを特徴とする。
【0007】また、請求項2記載の音声言語処理単位変
換装置は、請求項1記載の音声言語処理単位変換装置に
おいて、上記処理単位変換手段は、上記統計モデルを参
照して、上記音声認識した結果の単語列のうちの複数の
単語及び品詞並びについて節境界らしさを表わすスコア
を計算し、計算されたスコアが所定のしきい値を超える
ときに句点を挿入し、かつ上記経験的規則を参照して、
上記音声認識した結果の単語列における句点挿入箇所を
修正して、句点挿入箇所に上記言語処理単位の終了を表
わす第2の記号を挿入する句点挿入処理手段と、上記音
声認識した結果の単語列において句点が挿入されなかっ
た箇所に、所定の時間以上のポーズがあるときは無音区
間として検出して読点を挿入する読点挿入処理手段と、
初期状態のときに内部状態を第1の状態とし、上記第1
の状態のときに自由発話の開始時であるとき上記言語処
理単位の開始を表わす第1の記号を挿入し、自由発話の
最後の直前の位置に上記第2の記号が挿入されていると
き内部状態を第1の状態とし、自由発話の最後の直前の
位置に上記第2の記号が挿入されていないとき内部状態
を第2の状態とすることの処理を、上記音声認識した結
果の単語列に対して実行する分割接合処理手段とを備
え、上記処理単位変換手段の処理後の結果において、上
記第1の記号と上記第2の記号との間を上記言語処理単
位として認識することを特徴とする。
【0008】
【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。
【0009】図1は、本発明に係る一実施形態である音
声言語処理装置の構成を示すブロック図である。図1に
示すように、本実施形態の音声言語処理装置は、大きく
分けて、音声認識装置50と、処理単位変換部7と、日
英翻訳部8とを備えるとともに、処理単位変換部7の処
理のために、統計モデル計算部10と経験的処理部11
と統計モデルメモリ21と経験的規則メモリ22とを備
える。特に、本実施形態は、処理単位変換部7、統計モ
デル計算部10、経験的処理部11、統計モデルメモリ
21及び経験的規則メモリ22を備えたことを特徴とす
る。
【0010】本実施形態の処理単位変換部7は、任意の
入力単位で自由発話された入力発声音声を音声認識した
結果の単語列を、文の単位又は文に相当する単位である
言語処理単位に変換して出力するものである。統計モデ
ルメモリ21は、形態素解析されたテキストデータに基
づいて複数の単語及び品詞並びに対して句点に対応する
節境界らしさを表わすスコアを予め計算して統計モデル
として記憶する。また、経験的規則メモリ22は、形態
素解析されたテキストデータに基づいて句点挿入箇所の
韻律情報の経験的知識を予め抽出して経験的規則として
記憶する。上記処理単位変換部7は、上記統計モデル及
び上記経験的規則を参照して、かつ無音区間を検出し
て、上記音声認識した結果の単語列について、1つの入
力単位の音声認識結果を複数の言語処理単位に分割する
分割処理と、複数の入力単位の音声認識結果を1つの言
語処理単位に接合する接合処理を実行することにより、
上記音声認識した結果の単語列を、上記言語処理単位に
変換して出力する。
【0011】ここで、処理単位変換部7は、(a)上記
統計モデルを参照して、上記音声認識した結果の単語列
のうちの複数の単語及び品詞並びについて節境界らしさ
を表わすスコアを計算し、計算されたスコアが所定のし
きい値を超えるときに句点を挿入し、かつ上記経験的規
則を参照して、上記音声認識した結果の単語列における
句点挿入箇所を修正して、句点挿入箇所に上記言語処理
単位の終了を表わす第2の記号を挿入する句点挿入処理
と、(b)上記音声認識した結果の単語列において句点
が挿入されなかった箇所に、所定の時間以上のポーズが
あるときは無音区間として検出して読点を挿入する読点
挿入処理と、(c)初期状態のときに内部状態を第1の
状態とし、上記第1の状態のときに自由発話の開始時で
あるとき上記言語処理単位の開始を表わす第1の記号を
挿入し、自由発話の最後の直前の位置に上記第2の記号
が挿入されているとき内部状態を第1の状態とし、自由
発話の最後の直前の位置に上記第2の記号が挿入されて
いないとき内部状態を第2の状態とすることの処理を、
上記音声認識した結果の単語列に対して実行する分割接
合処理とを実行し、上記処理単位変換手段の処理後の結
果において、上記第1の記号と上記第2の記号との間を
上記言語処理単位として認識する。
【0012】図1において、音声認識装置50は音声終
端検出部2を除いて公知の装置であって、自由発話の発
声音声は、マイクロホン1に入力されて音声信号に変換
された後、A/D変換器1aによりデジタル音声信号に
変換され、当該デジタル音声信号が音声終端検出部2に
入力される。音声終端検出部2は、入力されたデジタル
音声信号のパワーと零交差数に基づいて音声区間を検出
し、無音が例えば1秒以上継続すると音声終端とみな
し、発話単位に区切る。具体的には、発話単位のデジタ
ル音声信号の前に、発話単位の開始を示す記号「UTT
−START」を挿入するとともに、発話単位のデジタ
ル音声信号の後ろに、発話単位の終了を示す記号「UT
T−END」を挿入して、特徴抽出部3に出力する。そ
して、特徴抽出部3は、入力されるデジタル音声信号に
対してLPC分析を行って、ケプストラム係数、Δケプ
ストラム係数、対数パワー、Δ対数パワーなどの特徴パ
ラメータを抽出してバッファメモリ4を介して音声認識
部5に出力する。音声認識部5は公知の音声認識方法に
より、隠れマルコフモデル(HMM)メモリ31内のH
MMと、統計的言語モデル32内の単語のバイグラムと
を参照して、マイクロホン1に入力された発声音声を音
声認識して、音声認識結果をバッファメモリ6を介して
処理単位変換部7に出力する。ここで、音声認識結果の
中には、無音区間の継続時間情報も含め、品詞タグ付き
の単語列情報を出力する。
【0013】一方、単語及び品詞並びの統計モデル計算
部(以下、統計モデル計算部という。)10は、後述す
るコーパスデータベースメモリ20内の、形態素解析さ
れた発声音声文のコーパスデータに基づいて、音声認識
結果の単語及び品詞並びに対して、句点相当の節境界ら
しさのスコアを計算するための統計量を計算して、統計
モデルメモリ21に格納する。
【0014】ここで、コーパスの例を表1及び表2に示
す。表1及び表2において、1行が1つの形態素に対応
している。形態素情報は「|」で区切られている。左か
ら順に「ターンID(音声入力のオンからオフま
で)」、「発話単位ID(長い無音で区切られ、日英翻
訳部8に渡された単位)」、「文節ID」、「形態素I
D」、「表記形」、「読み(カタカナ表記)」、「標準
形」、「品詞」、「活用型」、「活用形」、「コメン
ト」を表す。
【0015】
【表1】
【0016】
【表2】
【0017】次いで、コーパスデータから計算した統計
量の例について説明する。4つの単語及び品詞並びを参
照するための統計量モデルの統計量(節境界スコア;節
の境界となる頻度確率を示すスコアである。)の推定式
を次式に示す。・の位置が句点相当の節境界の位置であ
る。その前に2つの単語w12があり、その後に2つの
単語w34がある。
【数1】F([w12・w34])={C([w12・])+C
([w2・w3])+C([・w34])}/{C([w12]) +
C([w23])+C([w34]))
【0018】ここで、C([wij・])はバイグラム[w
ij]の右に句点相当の節境界が現れる回数であり、C
([wij])はバイグラム[wij]が学習セットに現れ
る総数である。他の記号も同様である。前2単語と後1
単語の合計3単語の範囲を参照する場合(変形例)は次
式となる。
【数2】F([w12・w3])=C([w12・])+C([w2
・w3])/C([w12])+C([w23])
【0019】品詞、活用形及び活用型を用いて計算した
統計量の例を次式に示す。
【数3】 F1([wij・])=C([wij・])/C([wij])
【数4】 F2([wi・wj])=C([wi・wj])/C([wij])
【0020】F1,F2に相当する統計量を求めた例を表
3に示す。表3において、F1がF1を表す。F1の最
初の行で説明すると、「助動詞|特殊|終止」が前の単
語の品詞・活用型・活用形を表す。「+」が区切り文字
である。次の「助動詞|特殊|終止」がそれに続く単語
の品詞・活用型・活用形を表す。「=」と「/」の間の
1がその品詞・活用型・活用形の並びの後に句点が現れ
た回数を表す。「/」と「=」の間の2がその品詞・活
用型・活用形の並びがコーパスに現れた回数を表す。最
後の0.500000はその割合を表す。F2も同様で
あり、「+」記号の代わりに「・」があり、その位置に
句点があることを示している。
【0021】
【表3】 ─────────────────────────────────── F1([助動詞|特殊|終止+助動詞|特殊|終止・])=1/2=0.500000 F1([語尾|特殊サ|終止+終助詞||・])=4584/5178=0.885284 F1([語尾|特殊ラ|命令+感動詞||・])=7/20=0.350000 F1([本動詞|サ変|連用+接続助詞||・])=1/51=0.019608 F1([普通名詞||+助動詞|特殊|終止・])=1/2=0.500000 F1([固有名詞||+連体助詞||・])=2/823=0.002430 F1([形容詞|形容詞|語幹+語尾|形容詞|終止・])=13/697=0.018651 F2([格助詞||・日時||])=1/264=0.003788 F2([終助詞||・本動詞|五段ガ|語幹])=2/2=1.000000 F2([助動詞|形容動詞|終止・接続詞||])=1/2=0.500000 F2([語尾|特殊サ|命令・形容詞|形容詞|語幹])=1/1=1.000000 F2([語尾|特殊ラ|命令・感動詞||])=20/20=1.000000 ───────────────────────────────────
【0022】次いで、経験的処理部11は、コーパスデ
ータベースメモリ20内のコーパスデータに基づいて、
統計モデルに関する経験的知識(ヒューリスティック
ス)、韻律情報に関する経験的知識(ヒューリスティッ
クス)、無音区間に関する経験的知識(ヒューリスティ
ックス)を、次の経験的規則の形式で記述して、経験的
規則メモリ22に記憶する。すなわち、経験的処理部1
1は、コーパスデータに基づいた実験結果の誤り分析及
び涌き出し誤り分析により経験的規則を作成する。
【0023】
【表4】 経験的規則の記述例 ─────────────────────────────────── 記述規則:(第一語+第二語・第三語+第四語)旧記号→新記号 :先に出現した規則が優先される。 各語の規則(|||で区切られた部分。表層表現|品詞|活用形|活用型) (null):0個 ex.||| *:0個以上存在する ex.*|*|*|* +:1個以上存在する ex.+|+|*|* (xxxx):個別指定 ex.+|感動詞|| !(xxxx):個別指定の否定 ex.+|!接続詞|| 注釈及びコメント 行末の”}”以降 行頭が”(”以外 注意点:各語と(+・){}とのスペースは1つ以上空けること。(必須) :旧記号→新記号が反例の場合はスペース2つ空けて記述する。 ─────────────────────────────────── <規則の例>感動詞 (*|*|*|*++|感動詞||・+|接続助詞||+*|*|*|*){※ →↓};申し訳ございません・が (*|*|*|*++|感動詞||・+|+|*|*+*|*|*|*){※→ ○ ×→○} ───────────────────────────────────
【0024】感動詞に関する経験的規則の例を表4に示
した。書式は四つの連鎖まで書けるようにした。行の一
番左に「(」記号のないものは規則解釈では無視され
る。従って、行の一番左に「(」記号を書かなければ、
自由にコメントが書ける。最初の行の「*|*|*|
*」は表層形、品詞、活用型及び活用形が何でも良いこ
とを表す。次の「+」記号は単語・品詞の区切り文字で
ある。次の「+|感動詞||」は表層形に何かの文字が
あり、品詞が感動詞で、活用型及び活用形はないことを
表す。次の「・」記号はその位置に句点が現れることを
表す。次の「+|接続助詞||」は表層形に何かの文字
があり、品詞が接続助詞で、活用型及び活用形はないこ
とを表す。次の「+」記号は単語・品詞の区切り文字で
ある。最後の「*|*|*|*」は表層形、品詞、活用
型及び活用形が何でも良いことを表す。そして、「{※
→↓}」は規則の実行パターンを表す。「※」は涌き出
し誤りを意味する。「↓」は句点がないことを意味す
る。実験によりこのパターンで涌き出し誤りが起こった
ことがあるが、この並びでは句点はないことを意味す
る。「;」記号の後ろはコメント欄であり、経験的規則
の解釈には関係ない。「申し訳ございません・が」とい
う涌き出し誤りがあったことを参考に記している。さら
に、「{※→○ ×→○}」は感動詞の直後に表層形と
品詞を1つ以上持つ場合に、涌き出し誤りや誤りがあっ
たことを表す。
【0025】順番に解釈されるので、全体としては感動
詞の直後に接続助詞が続かない限り、その位置を句点と
みなすことを表現している。
【0026】処理単位変換部7は、詳細後述するよう
に、入力される音声認識結果に対して処理単位変換処理
を実行し、具体的には、句点挿入処理と読点挿入処理と
分割接合処理を実行することにより、所定の言語処理単
位、本実施形態では、文又は文相当の単位に変換して日
英翻訳部8に出力する。そして、日英翻訳部8は、入力
される文字列に基づいて日本語から英語への翻訳処理
を、公知の翻訳方法で実行して、翻訳された単語列を出
力する。本実施形態では、日英翻訳部8を備えている
が、本発明はこれに限らず、他の翻訳装置、対話システ
ムなどの言語処理装置を用いてよい。
【0027】本実施形態において、音声終端検出部2、
特徴抽出部3、音声認識部5、処理単位変換部7、統計
モデル計算部10、経験的処理部11及び日英翻訳部8
とは、例えばデジタル計算機で構成され、バッファメモ
リ4、HMMメモリ31、統計的言語モデル32、統計
モデルメモリ21、経験的規則メモリ22、及びコーパ
スデータべーメモリ20とは、例えばハードディスクメ
モリなどの記憶装置で構成される。
【0028】図4は、図1の処理単位変換部7において
実行される処理単位変換処理を示すフローチャートであ
る。処理単位変換部7では、図2に示すように、音声入
力のオンとオフの間を1つのターンとし、例えば、1つ
のターンには2つの発話単位が含まれる。
【0029】図4において、ステップS1で音声入力が
オンか否かが判断され、オンされたとき、ステップS2
に進み、内部状態パラメータIPに状態Aを代入する。
次いで、ステップS3で、バッファメモリ6から単語列
データを読み込み、ステップS4で句点挿入処理を実行
し、ステップS5で読点挿入処理を実行し、ステップS
6で分割接合処理を実行する。そして、ステップS7で
音声入力がオフか否かが判断され、オフとなるまでステ
ップS6の分割接合処理を実行し、オフとなったとき当
該処理単位変換処理を終了する。
【0030】図5は、図4のサブルーチンである句点挿
入処理(ステップS4)を示すフローチャートである。
図5において、まず、ステップS11において読み込ん
だ単語列データを、最初から4つの単語を取り出して処
理対象とする。次いで、ステップS12で、処理対象の
単語列データに対して、統計モデルメモリ21内の単語
及び品詞並びの統計モデルを参照し、かつ数1を用いて
節境界スコアF(・)を計算する。そして、ステップS
13でF(・)≧Fth(ここで、Fthは節境界スコアの
しきい値であり、本実施形態では、好ましくは、0.3
7から0.43までに設定される。)であるか否か判断
され、YESのときは該当箇所が節境界であると判断し
て、ステップS14で該当箇所に句点を挿入してステッ
プS15に進む。一方、ステップS13でNOのときは
該当箇所が節境界でないと判断してステップS15に進
む。ステップS15では、経験的規則メモリ22内の経
験的規則を参照して句点挿入箇所を修正し、ステップS
16で句点挿入箇所が単語列データの途中であれば(ス
テップS16aでYES)ステップS19で「SENT
−END」「SENT−START」を挿入する一方、
単語列データの最後つまり「UTT−END」の直前な
ら(ステップS16bでYES)ステップS20で「S
ENT−END」を挿入する。さらに、ステップS17
ですべての単語列データを処理したか否かが判断され、
NOのときはステップS18で読み込んだ単語列データ
を1つずつずらして次の4つの単語を処理対象として、
ステップS12に戻り、上記の処理を繰り返す。ステッ
プS17でYESのときは、元のメインルーチンに戻
る。
【0031】図6は、図4のサブルーチンである読点挿
入処理(ステップS5)を示すフローチャートである。
図6において、まず、ステップS21で単語列データを
読み込む。次いで、ステップS22で句点が挿入されな
かった箇所にしきい値時間(例えば300ミリ秒)以上
の長いポーズがあるか否かが判断され、YESのときは
読点又はそれに相当する境界と判断してステップS23
で上記箇所に読点を挿入する。一方、ステップS21で
NOのときは読点相当境界でないと判断する。そしてス
テップS24ですべての単語列データを処理し終わるま
で1つの単語ずつずらして(ステップS25)上記の処
理を繰り返す。
【0032】図7は、図4のサブルーチンである分割接
合処理(ステップS7)を示すフローチャートである。
図7において、まず、ステップS31でIP=Aである
か否かが判断され、YESのときはステップS32で記
号「UTT−START」の後に記号「SENT−ST
ART」を挿入する。次にステップS33で記号「UT
T−END」の直前位置に記号「SENT−END」が
挿入されているか否かが判断され、YESのときはステ
ップS34で内部状態パラメータIPに状態Aを代入し
て、元のメインルーチンに戻る。一方、ステップS33
でNOのときは、ステップS35で内部状態パラメータ
IPに状態Bを代入して、元のメインルーチンに戻る。
当該分割接合処理の結果において、記号「SENT−S
TART」と記号「SENT−END」との間を文とし
て認識する。
【0033】次いで、処理単位変換部7における処理の
例を以下に示す。分割処理の例 図3(a)に示すように、1つの発話単位を3つの言語
処理単位、つまり3つの文に分割する例を次の表に示
す。
【0034】
【表5】 入力発声音声: ─────────────────────────────────── お待たせいたしました。申し訳ございません。シングルは満室となって おります。 ─────────────────────────────────── 音声認識結果: ─────────────────────────────────── UTT−START/お+待/た/し/いた+し+ま+し+た/申し訳ございま せん/十/五/満室/に+な+っ+てお+り+ま+す/UTT−END ─────────────────────────────────── 処理単位変換結果: ─────────────────────────────────── UTT−START/SENT−START/お+待/た/し/いた+し+ま+ し+た/SENT−END/SENT−START/申し訳ございません/SE NT−END/SENT−START/十/五/満室/に+な+っ+てお+り+ ま+す/SENT−END/UTT−END ───────────────────────────────────
【0035】表5において、音声認識結果の「/」記号
は音声認識で使っている単語辞書の区切りを表す。
「+」記号は言語処理の形態素辞書の区切りを表す。記
号「UTT−START」は入力音声の開始時点を表
す。記号「UTT−END」は音声終端検出部で検出で
きた入力音声の終端を表す。音声言語処理単位変換結果
の記号「SENT−START」は言語処理単位として
の文の開始時点を表す。記号「SENT−END」は言
語処理単位としての文の終端を表す。後に続く言語翻訳
等の言語処理部は記号「SENT−START」から記
号「SENT−END」の間を1つの言語処理単位つま
り文として処理すれば良い。
【0036】接合処理の例 図3(b)に示すように、2つの発話単位を接合して1
つの言語処理単位となる例を次の表に示す。「シングル
の」の後に1秒以上の長い無音が挿入されたため、音声
終端検出部2により終端とみなされている。
【0037】
【表6】 入力発声音声: ─────────────────────────────────── (1)シングルの、 (2)シャワー付きのお部屋がございます。 ─────────────────────────────────── 音声認識結果: ─────────────────────────────────── (3)UTT−START/シングル/の/UTT−END (4)UTT−START/シャワー+付き/の/お+部屋/が/ござ+い+ま +す/UTT−END ─────────────────────────────────── 処理単位変換結果: ─────────────────────────────────── (5)UTT−START/SENT−START/シングル/の/、/UTT −END (6)UTT−START/シャワー+付き/の/お+部屋/が/ござ+い+ま +す/SENT−END/UTT−END ───────────────────────────────────
【0038】
【実施例】発話単位の分割に関する予備実験の準備 本特許出願人が所有する評価実験用のホテル予約9会話
以外の609会話を学習に用いた。学習は発話権の交代
(ターン)を単位として行なった。ターンの始めには開
始記号を挿入し、ターンの終りには終了記号を挿入し
た。発話単位の開始と終了の情報は使わなかった。書き
起こしテキストの句点をそのまま句点相当の正しい節境
界とみなした。
【0039】書き起こしテキストを用いた実験結果 書き起こしテキストを用いた予備実験を行なった。句点
と読点を除いた形態素列を入力とした。学習時と同様
に、発話単位の情報は使わず、発話権の交代(ターン)
毎に1つの入力単位とした。ターンの途中にある句点1
23個が評価対象となる。書き起こしテキストの句点を
正解として、次式の再現率と適合率を求め、評価する。
その際、結果を3つに分類する。 (1)句点相当の節境界で成功する:正解[正解数P
c] (2)句点相当の節境界で失敗する:誤り[誤り数P
e] (3)句点相当の節境界ではない場所で成功する:涌き
出し誤り[涌き出し誤り数Pr]
【0040】
【数5】再現率=Pc/(Pc+Pe)
【数6】適合率=Pc/(Pc+Pr)
【0041】まず、句境界のしきい値Fthを0.10に
そろえ、粒度及び参照する範囲の違いの比較及び検討を
行なった。結果を表7に示す。ここで、粒度とは統計量
を求める単位のきめ細かさの違いであり、品詞は約30
個、品詞・活用形・活用型は約300個、単語は約30
00個となる。
【0042】
【表7】 粒度および参照する範囲の違いの比較 ─────────────────────────────────── 条件 品詞のみ 品詞・活用形・活用型 単語 閾値 再現率 適合率 再現率 適合率 再現率 適合率 ─────────────────────────────────── 前後2単語 0.10 87.9% 24.8% 96.7% 32.4% 96.7% 31.9% ─────────────────────────────────── 前2単語と後1単語0.10 86.2% 26.7% 96.7% 39.9% 92.7% 41.6% ───────────────────────────────────
【0043】表7から明らかなように、粒度の違いにつ
いては、品詞・活用形・活用型の場合が最も良い結果と
なった。以前の我々の研究においても、品詞では粒度が
荒らすぎ、単語では被覆率の観点で良くなかったため、
妥当な結果と考えられる。また、参照する範囲について
は、前2単語と後1単語の方が前後2単語(合計4単
語)よりも良かった。そこで、品詞・活用形・活用型の
並びに関して、前後2単語を参照する場合と、前2単語
と後1単語を参照する場合について、さらに最適なしき
い値を探してみた。結果を表8に示す。
【0044】
【表8】 最適なしきい値に基づく再現率と適合率 ──────────────────────────── 条件 品詞・活用形・活用型 閾値 再現率 適合率 ──────────────────────────── 前後2単語 0.37 80.5% 64.7% ──────────────────────────── 前2単語と後1単語 0.43 88.6% 65.7% ────────────────────────────
【0045】表8から明らかなように、やはり、前2単
語と後1単語の品詞・活用形・活用型の並びを利用した
場合が最も良い。誤りおよび涌き出し誤りの内容を次に
示す。あらかじめ要約すると、その分析内容も、前2単
語と後1単語の範囲を見れば十分であることを示唆して
いる。
【0046】誤りの分析 しきい値を0.43として、前2単語と後1単語の品詞
・活用形・活用型の並びを利用した場合の誤りは14件
あった。その内容を分析する。発話の途中の感動詞の直
後が2件あった。発話の途中の感動詞の直後は読点で書
き起こされることが多いためである。対策としては、感
動詞の直後に接続助詞が続かない限り(「涌き出し誤り
の分析」に例を示す。)句点相当の節境界とするという
経験的知識(ヒューリスティックス)が考えられる。次
に例を示す。行の先頭の「×」記号は誤り例を意味す
る。「+」記号は単語の区切り位置を示す。[]記号の
中にポーズの長さや発話単位等の情報を加えた。「・」
記号が現在位置を示す。ここで、msはミリ秒である。
【数7】 ×様+ありがとうございました[60ms]・また
【0047】接尾辞の直後が5件あった。そのうちの3
件は別の発話単位となっている。同じ発話単位に含まれ
るものは2件あり、そこには285msと350msの
ポーズがあった。次に例を示す。
【数8】×千+円[発話単位終了]・和室
【数9】×鈴木+様[285ms]・それでは
【0048】名詞類の直後が2件あった。そのうち1件
は別の発話単位となっている。同じ発話単位に含まれる
1件については、615msのポーズが挿入されてい
た。次に例を示す。
【数10】×零+零[発話単位終了]・ご
【数11】×ご+滞在[615ms]・零
【0049】接続助詞の直後が5件あった。1秒程度以
上の長いポーズが挿入されるか、発話単位が終わらない
限り、接続助詞の直後は読点で書き起こされているため
と考えられる。そのうち4件は別の発話単位となってい
る。同じ発話単位に含まれる1件については990ms
のポーズが挿入されていた。次に例を示す。
【数12】×す+が[発話単位終了]・予約
【数13】×た+もんですから[990ms]・あ 箇条発話の扱いを除けば、若干の経験的知識(ヒューリ
スティックス)を導入したり、ポーズとの関係を調べる
ことで対処可能なものである。
【0050】涌き出し誤りの分析 しきい値を0.43として、前2単語と後1単語の品詞
・活用形・活用型の並びを利用した場合の涌き出し誤り
は57件あった。その内容を分析する。発話の先頭の感
動詞の直後が45件あった。発話の先頭の感動詞の直後
は句点で書き起こされていることが多いためである。こ
れらの事例は句点とみなしても構わない。次に例を示
す。行の先頭の「※」記号は涌き出し誤り例を意味す
る。他の記号は同様である。
【数14】※+はい[640ms]・いつ
【数15】※+はい[110ms]・そう
【0051】終助詞の直後の涌き出し誤りが7件あっ
た。これらもすべて句点とみなしても構わない。次に例
を示す。
【数16】※す+か[590ms]・じゃあ その他の事例が5件あった。すべて頻度のまれな個別的
な事例であった。対策としては、助動詞終止形と終助詞
の間や、感動詞の直後に接続助詞が続く場合は句点相当
の節境界とはしない等の経験的知識(ヒューリスティッ
クス)が考えられる。次に例を示す。
【数17】※し+た・っけ ※大変+申し訳ございません・が 若干のヒューリスティックスを導入することで対処可能
な事例を除けば、ほとんどすべてが句点相当の節境界と
みなして構わないものであった。
【0052】経験的知識(ヒューリスティックス)導入
の効果 涌き出し誤り57件のうち、発話の先頭の感動詞の直後
45件と終助詞の直後7件の合計52件については、句
点相当の節境界とみなして良い。そこで、それらはすべ
て句点を正解とみなし、かつ、妥当な経験的知識(ヒュ
ーリスティックス)を導入して、再現率と適合率を求め
た。結果を表4に示す。再現率、適合率ともに改善でき
た。
【0053】
【表9】 経験的知識(ヒューリスティックス)導入の効果 ─────────────────────────────────── 条件 品詞・活用形・活用型 閾値 句点の追加 経験的知識 再現率 適合率 ─────────────────────────────────── 前2単語と後1単語 0.43 なし なし 88.6% 65.7% ─────────────────────────────────── 前2単語と後1単語 0.43 あり なし 92.0% 97.0% ─────────────────────────────────── 前2単語と後1単語 0.43 あり あり 97.7% 99.4% ───────────────────────────────────
【0054】音声認識結果への適用実験 図1の音声認識装置50の結果を用いて、句点相当の節
境界を検出する実験を行なった。書き起こしテキストに
よる評価実験を行なったホテル予約9会話を対象とし
た。書き起こしテキストを用いた予備実験では発話権の
交代(ターン)毎に1つの入力単位としたが、音声認識
結果を対象とする場合は発話単位を1つの入力単位とし
た。第1位候補に対する次に例を示す。
【0055】
【表10】 ─────────────────────────────────── 書き起こし: お待たせいたしました。申し訳ございません。シングルは満室となっております 。 ─────────────────────────────────── 認識結果: お+待/た/し/いた+し+ま+し+た○/申し訳ございません○/十/五/満 室/に+な+っ+てお+り+ま+す○ ───────────────────────────────────
【0056】認識結果の「/」記号は音声認識で使って
いる単語辞書の区切りを表す。認識結果の「+」記号は
データベースの形態素辞書の区切りを表す。「○」は検
出できた句点相当の節境界のうち、正解とみなせるもの
を次に示す。
【0057】
【表11】 ─────────────────────────────────── 書き起こし: [んー]ちょっと高いですね。もっと安い部屋は無いですか。 ─────────────────────────────────── 認識結果: 二※/ちょっと/高/い/で+す+ね○/オー/で+す※/いや/な/い/で+ す+か○ ───────────────────────────────────
【0058】書き起こしの[んー]は間投詞を表す。
「※」は涌き出し誤りを示す。音声認識で使っている単
語辞書では、話し言葉の文末表現に相当するものを1つ
の長い単位で扱うことが多いため、文末表現の位置に誤
認識が少ない。良好な結果を得た。さらに、韻律情報を
組み合わせても構わない。パワーの変化や音韻の継続時
間長を考慮しても良い。組み合わせ方は経験的知識(ヒ
ューリスティックス)の導入と同様である。
【0059】以上説明したように本実施形態によれば、
処理単位変換部7を備えたので、自由な入力単位を文又
は文相当の言語処理単位に適切に変換することができる
音声言語処理単位変換装置を提供することができる。
【0060】
【発明の効果】以上詳述したように本発明に係る請求項
1記載の音声言語処理単位変換装置によれば、任意の入
力単位で自由発話された入力発声音声を音声認識した結
果の単語列を、文の単位又は文に相当する単位である言
語処理単位に変換して出力する音声言語処理単位変換装
置であって、形態素解析されたテキストデータに基づい
て複数の単語及び品詞並びに対して句点に対応する節境
界らしさを表わすスコアを予め計算して統計モデルとし
て記憶する第1の記憶装置と、形態素解析されたテキス
トデータに基づいて句点挿入箇所の韻律情報の経験的知
識を予め抽出して経験的規則として記憶する第2の記憶
装置と、上記統計モデル及び上記経験的規則を参照し
て、かつ無音区間を検出して、上記音声認識した結果の
単語列について、1つの入力単位の音声認識結果を複数
の言語処理単位に分割する分割処理と、複数の入力単位
の音声認識結果を1つの言語処理単位に接合する接合処
理を実行することにより、上記音声認識した結果の単語
列を、上記言語処理単位に変換して出力する処理単位変
換手段とを備える。従って、自由な入力単位を文又は文
相当の言語処理単位に適切に変換することができる音声
言語処理単位変換装置を提供することができる。
【0061】また、請求項2記載の音声言語処理単位変
換装置においては、請求項1記載の音声言語処理単位変
換装置において、上記処理単位変換手段は、上記統計モ
デルを参照して、上記音声認識した結果の単語列のうち
の複数の単語及び品詞並びについて節境界らしさを表わ
すスコアを計算し、計算されたスコアが所定のしきい値
を超えるときに句点を挿入し、かつ上記経験的規則を参
照して、上記音声認識した結果の単語列における句点挿
入箇所を修正して、句点挿入箇所に上記言語処理単位の
終了を表わす第2の記号を挿入する句点挿入処理手段
と、上記音声認識した結果の単語列において句点が挿入
されなかった箇所に、所定の時間以上のポーズがあると
きは無音区間として検出して読点を挿入する読点挿入処
理手段と、初期状態のときに内部状態を第1の状態と
し、上記第1の状態のときに自由発話の開始時であると
き上記言語処理単位の開始を表わす第1の記号を挿入
し、自由発話の最後の直前の位置に上記第2の記号が挿
入されているとき内部状態を第1の状態とし、自由発話
の最後の直前の位置に上記第2の記号が挿入されていな
いとき内部状態を第2の状態とすることの処理を、上記
音声認識した結果の単語列に対して実行する分割接合処
理手段とを備え、上記処理単位変換手段の処理後の結果
において、上記第1の記号と上記第2の記号との間を上
記言語処理単位として認識する。従って、自由な入力単
位を文又は文相当の言語処理単位に適切に変換すること
ができる音声言語処理単位変換装置を提供することがで
きる。
【図面の簡単な説明】
【図1】 本発明に係る一実施形態である音声言語処理
装置の構成を示すブロック図である。
【図2】 図1の処理単位変換部7の処理の一例を示す
タイミングチャートである。
【図3】 (a)は図1の処理単位変換部7において実
行される分割処理の一例を示すタイミングチャートであ
り、(b)は図1の処理単位変換部7において実行され
る接合処理の一例を示すタイミングチャートである。
【図4】 図1の処理単位変換部7において実行される
処理単位変換処理を示すフローチャートである。
【図5】 図4のサブルーチンである句点挿入処理を示
すフローチャートである。
【図6】 図4のサブルーチンである読点挿入処理を示
すフローチャートである。
【図7】 図4のサブルーチンである分割接合処理を示
すフローチャートである。
【符号の説明】
1…マイクロホン、 1a…A/D変換器、 2…音声終端検出部、 3…特徴抽出部、 4…バッファメモリ、 5…音声認識部、 6…バッファメモリ、 7…処理単位変換部、 8…日英翻訳部、 10…統計モデル計算部、 11…経験的処理部、 20…コーパスデータベースメモリ、 21…統計モデルメモリ、 22…経験的規則メモリ、 31…隠れマルコフモデル(HMM)メモリ、 32…統計的言語モデル、 50…音声認識装置。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI G06F 17/28 G06F 15/38 Q (56)参考文献 特開 昭61−285570(JP,A) 特開 昭56−114041(JP,A) 竹澤ら「発話単位の分割または接合に よる言語処理単位への変換」信学技報S LP18−4、pp19−24(1997) (58)調査した分野(Int.Cl.7,DB名) G10L 3/00 - 9/20 G06F 3/16 G06F 17/22 G06F 17/28 JICSTファイル(JOIS)

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 任意の入力単位で自由発話された入力発
    声音声を音声認識した結果の単語列を、文の単位又は文
    に相当する単位である言語処理単位に変換して出力する
    音声言語処理単位変換装置であって、 形態素解析されたテキストデータに基づいて複数の単語
    及び品詞並びに対して句点に対応する節境界らしさを表
    わすスコアを予め計算して統計モデルとして記憶する第
    1の記憶装置と、 形態素解析されたテキストデータに基づいて句点挿入箇
    所の韻律情報の経験的知識を予め抽出して経験的規則と
    して記憶する第2の記憶装置と、 上記統計モデル及び上記経験的規則を参照して、かつ無
    音区間を検出して、上記音声認識した結果の単語列につ
    いて、1つの入力単位の音声認識結果を複数の言語処理
    単位に分割する分割処理と、複数の入力単位の音声認識
    結果を1つの言語処理単位に接合する接合処理を実行す
    ることにより、上記音声認識した結果の単語列を、上記
    言語処理単位に変換して出力する処理単位変換手段とを
    備えたことを特徴とする音声言語処理単位変換装置。
  2. 【請求項2】 請求項1記載の音声言語処理単位変換装
    置において、上記処理単位変換手段は、 上記統計モデルを参照して、上記音声認識した結果の単
    語列のうちの複数の単語及び品詞並びについて節境界ら
    しさを表わすスコアを計算し、計算されたスコアが所定
    のしきい値を超えるときに句点を挿入し、かつ上記経験
    的規則を参照して、上記音声認識した結果の単語列にお
    ける句点挿入箇所を修正して、句点挿入箇所に上記言語
    処理単位の終了を表わす第2の記号を挿入する句点挿入
    処理手段と、 上記音声認識した結果の単語列において句点が挿入され
    なかった箇所に、所定の時間以上のポーズがあるときは
    無音区間として検出して読点を挿入する読点挿入処理手
    段と、 初期状態のときに内部状態を第1の状態とし、上記第1
    の状態のときに自由発話の開始時であるとき上記言語処
    理単位の開始を表わす第1の記号を挿入し、自由発話の
    最後の直前の位置に上記第2の記号が挿入されていると
    き内部状態を第1の状態とし、自由発話の最後の直前の
    位置に上記第2の記号が挿入されていないとき内部状態
    を第2の状態とすることの処理を、上記音声認識した結
    果の単語列に対して実行する分割接合処理手段とを備
    え、 上記処理単位変換手段の処理後の結果において、上記第
    1の記号と上記第2の記号との間を上記言語処理単位と
    して認識することを特徴とする音声言語処理単位変換装
    置。
JP9289634A 1997-10-22 1997-10-22 音声言語処理単位変換装置 Expired - Lifetime JP3009642B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9289634A JP3009642B2 (ja) 1997-10-22 1997-10-22 音声言語処理単位変換装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9289634A JP3009642B2 (ja) 1997-10-22 1997-10-22 音声言語処理単位変換装置

Publications (2)

Publication Number Publication Date
JPH11126091A JPH11126091A (ja) 1999-05-11
JP3009642B2 true JP3009642B2 (ja) 2000-02-14

Family

ID=17745784

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9289634A Expired - Lifetime JP3009642B2 (ja) 1997-10-22 1997-10-22 音声言語処理単位変換装置

Country Status (1)

Country Link
JP (1) JP3009642B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9583095B2 (en) 2009-07-17 2017-02-28 Nec Corporation Speech processing device, method, and storage medium
US10423700B2 (en) 2016-03-16 2019-09-24 Kabushiki Kaisha Toshiba Display assist apparatus, method, and program
KR102583764B1 (ko) * 2022-06-29 2023-09-27 (주)액션파워 외국어가 포함된 오디오의 음성 인식 방법

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3540984B2 (ja) * 2000-06-26 2004-07-07 日本電信電話株式会社 音声合成装置、音声合成方法および音声合成プログラムを記憶した記憶媒体
JP4953767B2 (ja) * 2006-11-02 2012-06-13 アルパイン株式会社 音声生成装置
WO2009122779A1 (ja) 2008-04-03 2009-10-08 日本電気株式会社 テキストデータ処理装置、方法、プログラムが格納された記録媒体
JPWO2011033834A1 (ja) * 2009-09-18 2013-02-07 日本電気株式会社 音声翻訳システム、音声翻訳方法および記録媒体
JP6712754B2 (ja) * 2016-08-23 2020-06-24 株式会社国際電気通信基礎技術研究所 談話機能推定装置及びそのためのコンピュータプログラム
CN107564526B (zh) * 2017-07-28 2020-10-27 北京搜狗科技发展有限公司 处理方法、装置和机器可读介质
WO2021215262A1 (ja) * 2020-04-20 2021-10-28 株式会社Nttドコモ 句点削除モデル学習装置、句点削除モデル及び判定装置
WO2023100433A1 (ja) * 2021-11-30 2023-06-08 株式会社Nttドコモ 文字列出力装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
竹澤ら「発話単位の分割または接合による言語処理単位への変換」信学技報SLP18−4、pp19−24(1997)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9583095B2 (en) 2009-07-17 2017-02-28 Nec Corporation Speech processing device, method, and storage medium
US10423700B2 (en) 2016-03-16 2019-09-24 Kabushiki Kaisha Toshiba Display assist apparatus, method, and program
KR102583764B1 (ko) * 2022-06-29 2023-09-27 (주)액션파워 외국어가 포함된 오디오의 음성 인식 방법
US11972756B2 (en) 2022-06-29 2024-04-30 Actionpower Corp. Method for recognizing the voice of audio containing foreign languages

Also Published As

Publication number Publication date
JPH11126091A (ja) 1999-05-11

Similar Documents

Publication Publication Date Title
Ostendorf et al. The Boston University radio news corpus
US6535849B1 (en) Method and system for generating semi-literal transcripts for speech recognition systems
US6067514A (en) Method for automatically punctuating a speech utterance in a continuous speech recognition system
Furui et al. Speech-to-text and speech-to-speech summarization of spontaneous speech
CA2680304C (en) Decoding-time prediction of non-verbalized tokens
US5333275A (en) System and method for time aligning speech
Kwon et al. Korean large vocabulary continuous speech recognition with morpheme-based recognition units
TW546631B (en) Disambiguation language model
Kirchhoff et al. Cross-dialectal data sharing for acoustic modeling in Arabic speech recognition
US20060149558A1 (en) Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
US20020156627A1 (en) Speech recognition apparatus and computer system therefor, speech recognition method and program and recording medium therefor
US5995931A (en) Method for modeling and recognizing speech including word liaisons
JPWO2007097176A1 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
Kirchhoff et al. Novel speech recognition models for Arabic
JP3009642B2 (ja) 音声言語処理単位変換装置
Chen Speech recognition with automatic punctuation
Arısoy et al. A unified language model for large vocabulary continuous speech recognition of Turkish
Hori et al. A statistical approach to automatic speech summarization
RU2386178C2 (ru) Способ предварительной обработки текста
JP3441400B2 (ja) 言語変換規則作成装置、及びプログラム記録媒体
JP3009636B2 (ja) 音声言語解析装置
US6772116B2 (en) Method of decoding telegraphic speech
JP2000259176A (ja) 音声認識装置およびその記録媒体
Shattuck-Hufnagel et al. Robustness of acoustic landmarks in spontaneously-spoken American English
JP2001013992A (ja) 音声理解装置