JP3009642B2

JP3009642B2 - 音声言語処理単位変換装置

Info

Publication number: JP3009642B2
Application number: JP9289634A
Authority: JP
Inventors: 寿幸竹澤; 逞森元
Original assignee: 株式会社エイ・ティ・アール音声翻訳通信研究所
Priority date: 1997-10-22
Filing date: 1997-10-22
Publication date: 2000-02-14
Anticipated expiration: 2017-10-22
Also published as: JPH11126091A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、自由発話音声認識
装置と自由発話音声翻訳装置との間、もしくは、自由発
話音声認識装置と自由発話音声理解装置との間に挿入さ
れ、発話音声の入力単位の音声認識結果を翻訳や言語理
解の単位に変換するための音声言語処理単位変換装置に
関する。

【０００２】

【従来の技術及び発明が解決しようとする課題】従来の
音声翻訳装置又は音声対話システムへの入力は、文節区
切りのようなゆっくり丁寧に発話された文を単位とする
音声であった。しかしながら、自然で自発的な発話を対
象とする音声翻訳装置又は音声対話システムへの入力と
しての発話単位は文に限定できない。

【０００３】一方、言語翻訳処理における処理単位は文
である。書き言葉を対象とする自然言語処理システムに
おける処理単位も一般に文である。話し言葉を対象とす
る言語翻訳処理における処理単位も文である。音声対話
システムにおける問題解決器のための解釈の処理単位も
暗黙の内に文又は文相当のものを想定している。

【０００４】自由発話音声を対象とする音声翻訳装置又
は音声対話システムを構築するためには、自由な入力単
位を文又は文相当の言語処理単位に変換する必要がある
が、このような方法及び装置は従来無かった。

【０００５】本発明の目的は以上の問題点を解決し、自
由な入力単位を文又は文相当の言語処理単位に適切に変
換することができる音声言語処理単位変換装置を提供す
ることにある。

【０００６】

【課題を解決するための手段】本発明に係る請求項１記
載の音声言語処理単位変換装置は、任意の入力単位で自
由発話された入力発声音声を音声認識した結果の単語列
を、文の単位又は文に相当する単位である言語処理単位
に変換して出力する音声言語処理単位変換装置であっ
て、形態素解析されたテキストデータに基づいて複数の
単語及び品詞並びに対して句点に対応する節境界らしさ
を表わすスコアを予め計算して統計モデルとして記憶す
る第１の記憶装置と、形態素解析されたテキストデータ
に基づいて句点挿入箇所の韻律情報の経験的知識を予め
抽出して経験的規則として記憶する第２の記憶装置と、
上記統計モデル及び上記経験的規則を参照して、かつ無
音区間を検出して、上記音声認識した結果の単語列につ
いて、１つの入力単位の音声認識結果を複数の言語処理
単位に分割する分割処理と、複数の入力単位の音声認識
結果を１つの言語処理単位に接合する接合処理を実行す
ることにより、上記音声認識した結果の単語列を、上記
言語処理単位に変換して出力する処理単位変換手段とを
備えたことを特徴とする。

【０００７】また、請求項２記載の音声言語処理単位変
換装置は、請求項１記載の音声言語処理単位変換装置に
おいて、上記処理単位変換手段は、上記統計モデルを参
照して、上記音声認識した結果の単語列のうちの複数の
単語及び品詞並びについて節境界らしさを表わすスコア
を計算し、計算されたスコアが所定のしきい値を超える
ときに句点を挿入し、かつ上記経験的規則を参照して、
上記音声認識した結果の単語列における句点挿入箇所を
修正して、句点挿入箇所に上記言語処理単位の終了を表
わす第２の記号を挿入する句点挿入処理手段と、上記音
声認識した結果の単語列において句点が挿入されなかっ
た箇所に、所定の時間以上のポーズがあるときは無音区
間として検出して読点を挿入する読点挿入処理手段と、
初期状態のときに内部状態を第１の状態とし、上記第１
の状態のときに自由発話の開始時であるとき上記言語処
理単位の開始を表わす第１の記号を挿入し、自由発話の
最後の直前の位置に上記第２の記号が挿入されていると
き内部状態を第１の状態とし、自由発話の最後の直前の
位置に上記第２の記号が挿入されていないとき内部状態
を第２の状態とすることの処理を、上記音声認識した結
果の単語列に対して実行する分割接合処理手段とを備
え、上記処理単位変換手段の処理後の結果において、上
記第１の記号と上記第２の記号との間を上記言語処理単
位として認識することを特徴とする。

【０００８】

【発明の実施の形態】以下、図面を参照して本発明に係
る実施形態について説明する。

【０００９】図１は、本発明に係る一実施形態である音
声言語処理装置の構成を示すブロック図である。図１に
示すように、本実施形態の音声言語処理装置は、大きく
分けて、音声認識装置５０と、処理単位変換部７と、日
英翻訳部８とを備えるとともに、処理単位変換部７の処
理のために、統計モデル計算部１０と経験的処理部１１
と統計モデルメモリ２１と経験的規則メモリ２２とを備
える。特に、本実施形態は、処理単位変換部７、統計モ
デル計算部１０、経験的処理部１１、統計モデルメモリ
２１及び経験的規則メモリ２２を備えたことを特徴とす
る。

【００１０】本実施形態の処理単位変換部７は、任意の
入力単位で自由発話された入力発声音声を音声認識した
結果の単語列を、文の単位又は文に相当する単位である
言語処理単位に変換して出力するものである。統計モデ
ルメモリ２１は、形態素解析されたテキストデータに基
づいて複数の単語及び品詞並びに対して句点に対応する
節境界らしさを表わすスコアを予め計算して統計モデル
として記憶する。また、経験的規則メモリ２２は、形態
素解析されたテキストデータに基づいて句点挿入箇所の
韻律情報の経験的知識を予め抽出して経験的規則として
記憶する。上記処理単位変換部７は、上記統計モデル及
び上記経験的規則を参照して、かつ無音区間を検出し
て、上記音声認識した結果の単語列について、１つの入
力単位の音声認識結果を複数の言語処理単位に分割する
分割処理と、複数の入力単位の音声認識結果を１つの言
語処理単位に接合する接合処理を実行することにより、
上記音声認識した結果の単語列を、上記言語処理単位に
変換して出力する。

【００１１】ここで、処理単位変換部７は、（ａ）上記
統計モデルを参照して、上記音声認識した結果の単語列
のうちの複数の単語及び品詞並びについて節境界らしさ
を表わすスコアを計算し、計算されたスコアが所定のし
きい値を超えるときに句点を挿入し、かつ上記経験的規
則を参照して、上記音声認識した結果の単語列における
句点挿入箇所を修正して、句点挿入箇所に上記言語処理
単位の終了を表わす第２の記号を挿入する句点挿入処理
と、（ｂ）上記音声認識した結果の単語列において句点
が挿入されなかった箇所に、所定の時間以上のポーズが
あるときは無音区間として検出して読点を挿入する読点
挿入処理と、（ｃ）初期状態のときに内部状態を第１の
状態とし、上記第１の状態のときに自由発話の開始時で
あるとき上記言語処理単位の開始を表わす第１の記号を
挿入し、自由発話の最後の直前の位置に上記第２の記号
が挿入されているとき内部状態を第１の状態とし、自由
発話の最後の直前の位置に上記第２の記号が挿入されて
いないとき内部状態を第２の状態とすることの処理を、
上記音声認識した結果の単語列に対して実行する分割接
合処理とを実行し、上記処理単位変換手段の処理後の結
果において、上記第１の記号と上記第２の記号との間を
上記言語処理単位として認識する。

【００１２】図１において、音声認識装置５０は音声終
端検出部２を除いて公知の装置であって、自由発話の発
声音声は、マイクロホン１に入力されて音声信号に変換
された後、Ａ／Ｄ変換器１ａによりデジタル音声信号に
変換され、当該デジタル音声信号が音声終端検出部２に
入力される。音声終端検出部２は、入力されたデジタル
音声信号のパワーと零交差数に基づいて音声区間を検出
し、無音が例えば１秒以上継続すると音声終端とみな
し、発話単位に区切る。具体的には、発話単位のデジタ
ル音声信号の前に、発話単位の開始を示す記号「ＵＴＴ
−ＳＴＡＲＴ」を挿入するとともに、発話単位のデジタ
ル音声信号の後ろに、発話単位の終了を示す記号「ＵＴ
Ｔ−ＥＮＤ」を挿入して、特徴抽出部３に出力する。そ
して、特徴抽出部３は、入力されるデジタル音声信号に
対してＬＰＣ分析を行って、ケプストラム係数、Δケプ
ストラム係数、対数パワー、Δ対数パワーなどの特徴パ
ラメータを抽出してバッファメモリ４を介して音声認識
部５に出力する。音声認識部５は公知の音声認識方法に
より、隠れマルコフモデル（ＨＭＭ）メモリ３１内のＨ
ＭＭと、統計的言語モデル３２内の単語のバイグラムと
を参照して、マイクロホン１に入力された発声音声を音
声認識して、音声認識結果をバッファメモリ６を介して
処理単位変換部７に出力する。ここで、音声認識結果の
中には、無音区間の継続時間情報も含め、品詞タグ付き
の単語列情報を出力する。

【００１３】一方、単語及び品詞並びの統計モデル計算
部（以下、統計モデル計算部という。）１０は、後述す
るコーパスデータベースメモリ２０内の、形態素解析さ
れた発声音声文のコーパスデータに基づいて、音声認識
結果の単語及び品詞並びに対して、句点相当の節境界ら
しさのスコアを計算するための統計量を計算して、統計
モデルメモリ２１に格納する。

【００１４】ここで、コーパスの例を表１及び表２に示
す。表１及び表２において、１行が１つの形態素に対応
している。形態素情報は「｜」で区切られている。左か
ら順に「ターンＩＤ（音声入力のオンからオフま
で）」、「発話単位ＩＤ（長い無音で区切られ、日英翻
訳部８に渡された単位）」、「文節ＩＤ」、「形態素Ｉ
Ｄ」、「表記形」、「読み（カタカナ表記）」、「標準
形」、「品詞」、「活用型」、「活用形」、「コメン
ト」を表す。

【００１５】

【表１】

【００１６】

【表２】

【００１７】次いで、コーパスデータから計算した統計
量の例について説明する。４つの単語及び品詞並びを参
照するための統計量モデルの統計量（節境界スコア；節
の境界となる頻度確率を示すスコアである。）の推定式
を次式に示す。・の位置が句点相当の節境界の位置であ
る。その前に２つの単語ｗ₁ｗ₂があり、その後に２つの
単語ｗ₃ｗ₄がある。

【数１】Ｆ([ｗ₁ｗ₂・ｗ₃ｗ₄])＝｛Ｃ([ｗ₁ｗ₂・])＋Ｃ
([ｗ₂・ｗ₃])＋Ｃ([・ｗ₃ｗ₄])｝／｛Ｃ([ｗ₁ｗ₂]) ＋
Ｃ([ｗ₂ｗ₃])＋Ｃ([ｗ₃ｗ₄])）

【００１８】ここで、Ｃ([ｗ_iｗ_j・])はバイグラム［ｗ
_iｗ_j］の右に句点相当の節境界が現れる回数であり、Ｃ
([ｗ_iｗ_j])はバイグラム［ｗ_iｗ_j］が学習セットに現れ
る総数である。他の記号も同様である。前２単語と後１
単語の合計３単語の範囲を参照する場合（変形例）は次
式となる。

【数２】Ｆ([ｗ₁ｗ₂・ｗ₃])＝Ｃ([ｗ₁ｗ₂・])＋Ｃ([ｗ₂
・ｗ₃])／Ｃ([ｗ₁ｗ₂])＋Ｃ([ｗ₂ｗ₃])

【００１９】品詞、活用形及び活用型を用いて計算した
統計量の例を次式に示す。

【数３】Ｆ₁([ｗ_iｗ_j・])＝Ｃ([ｗ_iｗ_j・])／Ｃ([ｗ_iｗ_j])

【数４】Ｆ₂([ｗ_i・ｗ_j])＝Ｃ([ｗ_i・ｗ_j])／Ｃ([ｗ_iｗ_j])

【００２０】Ｆ₁，Ｆ₂に相当する統計量を求めた例を表
３に示す。表３において、Ｆ１がＦ₁を表す。Ｆ１の最
初の行で説明すると、「助動詞｜特殊｜終止」が前の単
語の品詞・活用型・活用形を表す。「＋」が区切り文字
である。次の「助動詞｜特殊｜終止」がそれに続く単語
の品詞・活用型・活用形を表す。「＝」と「／」の間の
１がその品詞・活用型・活用形の並びの後に句点が現れ
た回数を表す。「／」と「＝」の間の２がその品詞・活
用型・活用形の並びがコーパスに現れた回数を表す。最
後の０．５０００００はその割合を表す。Ｆ２も同様で
あり、「＋」記号の代わりに「・」があり、その位置に
句点があることを示している。

【００２１】

【表３】 ─────────────────────────────────── Ｆ１（［助動詞｜特殊｜終止＋助動詞｜特殊｜終止・］）=1/2=0.500000 Ｆ１（［語尾｜特殊サ｜終止＋終助詞｜｜・］）=4584/5178=0.885284 Ｆ１（［語尾｜特殊ラ｜命令＋感動詞｜｜・］）=7/20=0.350000 Ｆ１（［本動詞｜サ変｜連用＋接続助詞｜｜・］）=1/51=0.019608 Ｆ１（［普通名詞｜｜＋助動詞｜特殊｜終止・］）＝１／２＝０．５０００００Ｆ１（［固有名詞｜｜＋連体助詞｜｜・］）＝２／８２３＝０．００２４３０Ｆ１（［形容詞｜形容詞｜語幹＋語尾｜形容詞｜終止・］）=13/697=0.018651 Ｆ２（［格助詞｜｜・日時｜｜］）=1/264=0.003788 Ｆ２（［終助詞｜｜・本動詞｜五段ガ｜語幹］）=2/2=1.000000 Ｆ２（［助動詞｜形容動詞｜終止・接続詞｜｜］）=1/2=0.500000 Ｆ２（［語尾｜特殊サ｜命令・形容詞｜形容詞｜語幹］）=1/1=1.000000 Ｆ２（［語尾｜特殊ラ｜命令・感動詞｜｜］）=20/20=1.000000 ───────────────────────────────────

【００２２】次いで、経験的処理部１１は、コーパスデ
ータベースメモリ２０内のコーパスデータに基づいて、
統計モデルに関する経験的知識（ヒューリスティック
ス）、韻律情報に関する経験的知識（ヒューリスティッ
クス）、無音区間に関する経験的知識（ヒューリスティ
ックス）を、次の経験的規則の形式で記述して、経験的
規則メモリ２２に記憶する。すなわち、経験的処理部１
１は、コーパスデータに基づいた実験結果の誤り分析及
び涌き出し誤り分析により経験的規則を作成する。

【００２３】

【表４】経験的規則の記述例 ─────────────────────────────────── 記述規則：（第一語＋第二語・第三語＋第四語）旧記号→新記号：先に出現した規則が優先される。各語の規則（｜｜｜で区切られた部分。表層表現｜品詞｜活用形｜活用型）（ｎｕｌｌ）：０個ｅｘ．｜｜｜＊：０個以上存在するｅｘ．＊｜＊｜＊｜＊＋：１個以上存在するｅｘ．＋｜＋｜＊｜＊（ｘｘｘｘ）：個別指定ｅｘ．＋｜感動詞｜｜！（ｘｘｘｘ）：個別指定の否定ｅｘ．＋｜！接続詞｜｜注釈及びコメント行末の”｝”以降行頭が”（”以外注意点：各語と（＋・）｛｝とのスペースは１つ以上空けること。（必須）：旧記号→新記号が反例の場合はスペース２つ空けて記述する。 ─────────────────────────────────── ＜規則の例＞感動詞（＊｜＊｜＊｜＊＋＋｜感動詞｜｜・＋｜接続助詞｜｜＋＊｜＊｜＊｜＊）｛※ →↓｝；申し訳ございません・が（＊｜＊｜＊｜＊＋＋｜感動詞｜｜・＋｜＋｜＊｜＊＋＊｜＊｜＊｜＊）｛※→ ○ ×→○｝ ───────────────────────────────────

【００２４】感動詞に関する経験的規則の例を表４に示
した。書式は四つの連鎖まで書けるようにした。行の一
番左に「（」記号のないものは規則解釈では無視され
る。従って、行の一番左に「（」記号を書かなければ、
自由にコメントが書ける。最初の行の「＊｜＊｜＊｜
＊」は表層形、品詞、活用型及び活用形が何でも良いこ
とを表す。次の「＋」記号は単語・品詞の区切り文字で
ある。次の「＋｜感動詞｜｜」は表層形に何かの文字が
あり、品詞が感動詞で、活用型及び活用形はないことを
表す。次の「・」記号はその位置に句点が現れることを
表す。次の「＋｜接続助詞｜｜」は表層形に何かの文字
があり、品詞が接続助詞で、活用型及び活用形はないこ
とを表す。次の「＋」記号は単語・品詞の区切り文字で
ある。最後の「＊｜＊｜＊｜＊」は表層形、品詞、活用
型及び活用形が何でも良いことを表す。そして、「｛※
→↓｝」は規則の実行パターンを表す。「※」は涌き出
し誤りを意味する。「↓」は句点がないことを意味す
る。実験によりこのパターンで涌き出し誤りが起こった
ことがあるが、この並びでは句点はないことを意味す
る。「；」記号の後ろはコメント欄であり、経験的規則
の解釈には関係ない。「申し訳ございません・が」とい
う涌き出し誤りがあったことを参考に記している。さら
に、「｛※→○ ×→○｝」は感動詞の直後に表層形と
品詞を１つ以上持つ場合に、涌き出し誤りや誤りがあっ
たことを表す。

【００２５】順番に解釈されるので、全体としては感動
詞の直後に接続助詞が続かない限り、その位置を句点と
みなすことを表現している。

【００２６】処理単位変換部７は、詳細後述するよう
に、入力される音声認識結果に対して処理単位変換処理
を実行し、具体的には、句点挿入処理と読点挿入処理と
分割接合処理を実行することにより、所定の言語処理単
位、本実施形態では、文又は文相当の単位に変換して日
英翻訳部８に出力する。そして、日英翻訳部８は、入力
される文字列に基づいて日本語から英語への翻訳処理
を、公知の翻訳方法で実行して、翻訳された単語列を出
力する。本実施形態では、日英翻訳部８を備えている
が、本発明はこれに限らず、他の翻訳装置、対話システ
ムなどの言語処理装置を用いてよい。

【００２７】本実施形態において、音声終端検出部２、
特徴抽出部３、音声認識部５、処理単位変換部７、統計
モデル計算部１０、経験的処理部１１及び日英翻訳部８
とは、例えばデジタル計算機で構成され、バッファメモ
リ４、ＨＭＭメモリ３１、統計的言語モデル３２、統計
モデルメモリ２１、経験的規則メモリ２２、及びコーパ
スデータべーメモリ２０とは、例えばハードディスクメ
モリなどの記憶装置で構成される。

【００２８】図４は、図１の処理単位変換部７において
実行される処理単位変換処理を示すフローチャートであ
る。処理単位変換部７では、図２に示すように、音声入
力のオンとオフの間を１つのターンとし、例えば、１つ
のターンには２つの発話単位が含まれる。

【００２９】図４において、ステップＳ１で音声入力が
オンか否かが判断され、オンされたとき、ステップＳ２
に進み、内部状態パラメータＩＰに状態Ａを代入する。
次いで、ステップＳ３で、バッファメモリ６から単語列
データを読み込み、ステップＳ４で句点挿入処理を実行
し、ステップＳ５で読点挿入処理を実行し、ステップＳ
６で分割接合処理を実行する。そして、ステップＳ７で
音声入力がオフか否かが判断され、オフとなるまでステ
ップＳ６の分割接合処理を実行し、オフとなったとき当
該処理単位変換処理を終了する。

【００３０】図５は、図４のサブルーチンである句点挿
入処理（ステップＳ４）を示すフローチャートである。
図５において、まず、ステップＳ１１において読み込ん
だ単語列データを、最初から４つの単語を取り出して処
理対象とする。次いで、ステップＳ１２で、処理対象の
単語列データに対して、統計モデルメモリ２１内の単語
及び品詞並びの統計モデルを参照し、かつ数１を用いて
節境界スコアＦ（・）を計算する。そして、ステップＳ
１３でＦ（・）≧Ｆ_th（ここで、Ｆ_thは節境界スコアの
しきい値であり、本実施形態では、好ましくは、０．３
７から０．４３までに設定される。）であるか否か判断
され、ＹＥＳのときは該当箇所が節境界であると判断し
て、ステップＳ１４で該当箇所に句点を挿入してステッ
プＳ１５に進む。一方、ステップＳ１３でＮＯのときは
該当箇所が節境界でないと判断してステップＳ１５に進
む。ステップＳ１５では、経験的規則メモリ２２内の経
験的規則を参照して句点挿入箇所を修正し、ステップＳ
１６で句点挿入箇所が単語列データの途中であれば（ス
テップＳ１６ａでＹＥＳ）ステップＳ１９で「ＳＥＮＴ
−ＥＮＤ」「ＳＥＮＴ−ＳＴＡＲＴ」を挿入する一方、
単語列データの最後つまり「ＵＴＴ−ＥＮＤ」の直前な
ら（ステップＳ１６ｂでＹＥＳ）ステップＳ２０で「Ｓ
ＥＮＴ−ＥＮＤ」を挿入する。さらに、ステップＳ１７
ですべての単語列データを処理したか否かが判断され、
ＮＯのときはステップＳ１８で読み込んだ単語列データ
を１つずつずらして次の４つの単語を処理対象として、
ステップＳ１２に戻り、上記の処理を繰り返す。ステッ
プＳ１７でＹＥＳのときは、元のメインルーチンに戻
る。

【００３１】図６は、図４のサブルーチンである読点挿
入処理（ステップＳ５）を示すフローチャートである。
図６において、まず、ステップＳ２１で単語列データを
読み込む。次いで、ステップＳ２２で句点が挿入されな
かった箇所にしきい値時間（例えば３００ミリ秒）以上
の長いポーズがあるか否かが判断され、ＹＥＳのときは
読点又はそれに相当する境界と判断してステップＳ２３
で上記箇所に読点を挿入する。一方、ステップＳ２１で
ＮＯのときは読点相当境界でないと判断する。そしてス
テップＳ２４ですべての単語列データを処理し終わるま
で１つの単語ずつずらして（ステップＳ２５）上記の処
理を繰り返す。

【００３２】図７は、図４のサブルーチンである分割接
合処理（ステップＳ７）を示すフローチャートである。
図７において、まず、ステップＳ３１でＩＰ＝Ａである
か否かが判断され、ＹＥＳのときはステップＳ３２で記
号「ＵＴＴ−ＳＴＡＲＴ」の後に記号「ＳＥＮＴ−ＳＴ
ＡＲＴ」を挿入する。次にステップＳ３３で記号「ＵＴ
Ｔ−ＥＮＤ」の直前位置に記号「ＳＥＮＴ−ＥＮＤ」が
挿入されているか否かが判断され、ＹＥＳのときはステ
ップＳ３４で内部状態パラメータＩＰに状態Ａを代入し
て、元のメインルーチンに戻る。一方、ステップＳ３３
でＮＯのときは、ステップＳ３５で内部状態パラメータ
ＩＰに状態Ｂを代入して、元のメインルーチンに戻る。
当該分割接合処理の結果において、記号「ＳＥＮＴ−Ｓ
ＴＡＲＴ」と記号「ＳＥＮＴ−ＥＮＤ」との間を文とし
て認識する。

【００３３】次いで、処理単位変換部７における処理の
例を以下に示す。分割処理の例図３（ａ）に示すように、１つの発話単位を３つの言語
処理単位、つまり３つの文に分割する例を次の表に示
す。

【００３４】

【表５】入力発声音声： ─────────────────────────────────── お待たせいたしました。申し訳ございません。シングルは満室となっております。 ─────────────────────────────────── 音声認識結果： ─────────────────────────────────── ＵＴＴ−ＳＴＡＲＴ／お＋待／た／し／いた＋し＋ま＋し＋た／申し訳ございません／十／五／満室／に＋な＋っ＋てお＋り＋ま＋す／ＵＴＴ−ＥＮＤ ─────────────────────────────────── 処理単位変換結果： ─────────────────────────────────── ＵＴＴ−ＳＴＡＲＴ／ＳＥＮＴ−ＳＴＡＲＴ／お＋待／た／し／いた＋し＋ま＋し＋た／ＳＥＮＴ−ＥＮＤ／ＳＥＮＴ−ＳＴＡＲＴ／申し訳ございません／ＳＥＮＴ−ＥＮＤ／ＳＥＮＴ−ＳＴＡＲＴ／十／五／満室／に＋な＋っ＋てお＋り＋ま＋す／ＳＥＮＴ−ＥＮＤ／ＵＴＴ−ＥＮＤ ───────────────────────────────────

【００３５】表５において、音声認識結果の「／」記号
は音声認識で使っている単語辞書の区切りを表す。
「＋」記号は言語処理の形態素辞書の区切りを表す。記
号「ＵＴＴ−ＳＴＡＲＴ」は入力音声の開始時点を表
す。記号「ＵＴＴ−ＥＮＤ」は音声終端検出部で検出で
きた入力音声の終端を表す。音声言語処理単位変換結果
の記号「ＳＥＮＴ−ＳＴＡＲＴ」は言語処理単位として
の文の開始時点を表す。記号「ＳＥＮＴ−ＥＮＤ」は言
語処理単位としての文の終端を表す。後に続く言語翻訳
等の言語処理部は記号「ＳＥＮＴ−ＳＴＡＲＴ」から記
号「ＳＥＮＴ−ＥＮＤ」の間を１つの言語処理単位つま
り文として処理すれば良い。

【００３６】接合処理の例図３（ｂ）に示すように、２つの発話単位を接合して１
つの言語処理単位となる例を次の表に示す。「シングル
の」の後に１秒以上の長い無音が挿入されたため、音声
終端検出部２により終端とみなされている。

【００３７】

【表６】入力発声音声： ─────────────────────────────────── （１）シングルの、（２）シャワー付きのお部屋がございます。 ─────────────────────────────────── 音声認識結果： ─────────────────────────────────── （３）ＵＴＴ−ＳＴＡＲＴ／シングル／の／ＵＴＴ−ＥＮＤ（４）ＵＴＴ−ＳＴＡＲＴ／シャワー＋付き／の／お＋部屋／が／ござ＋い＋ま＋す／ＵＴＴ−ＥＮＤ ─────────────────────────────────── 処理単位変換結果： ─────────────────────────────────── （５）ＵＴＴ−ＳＴＡＲＴ／ＳＥＮＴ−ＳＴＡＲＴ／シングル／の／、／ＵＴＴ −ＥＮＤ（６）ＵＴＴ−ＳＴＡＲＴ／シャワー＋付き／の／お＋部屋／が／ござ＋い＋ま＋す／ＳＥＮＴ−ＥＮＤ／ＵＴＴ−ＥＮＤ ───────────────────────────────────

【００３８】

【実施例】発話単位の分割に関する予備実験の準備本特許出願人が所有する評価実験用のホテル予約９会話
以外の６０９会話を学習に用いた。学習は発話権の交代
（ターン）を単位として行なった。ターンの始めには開
始記号を挿入し、ターンの終りには終了記号を挿入し
た。発話単位の開始と終了の情報は使わなかった。書き
起こしテキストの句点をそのまま句点相当の正しい節境
界とみなした。

【００３９】書き起こしテキストを用いた実験結果書き起こしテキストを用いた予備実験を行なった。句点
と読点を除いた形態素列を入力とした。学習時と同様
に、発話単位の情報は使わず、発話権の交代（ターン）
毎に１つの入力単位とした。ターンの途中にある句点１
２３個が評価対象となる。書き起こしテキストの句点を
正解として、次式の再現率と適合率を求め、評価する。
その際、結果を３つに分類する。（１）句点相当の節境界で成功する：正解［正解数Ｐ
ｃ］（２）句点相当の節境界で失敗する：誤り［誤り数Ｐ
ｅ］（３）句点相当の節境界ではない場所で成功する：涌き
出し誤り［涌き出し誤り数Ｐｒ］

【００４０】

【数５】再現率＝Ｐｃ／（Ｐｃ＋Ｐｅ）

【数６】適合率＝Ｐｃ／（Ｐｃ＋Ｐｒ）

【００４１】まず、句境界のしきい値Ｆ_thを０．１０に
そろえ、粒度及び参照する範囲の違いの比較及び検討を
行なった。結果を表７に示す。ここで、粒度とは統計量
を求める単位のきめ細かさの違いであり、品詞は約３０
個、品詞・活用形・活用型は約３００個、単語は約３０
００個となる。

【００４２】

【表７】粒度および参照する範囲の違いの比較 ─────────────────────────────────── 条件品詞のみ品詞・活用形・活用型単語閾値再現率適合率再現率適合率再現率適合率 ─────────────────────────────────── 前後２単語 0.10 87.9％ 24.8％ 96.7％ 32.4％ 96.7％ 31.9％ ─────────────────────────────────── 前２単語と後１単語0.10 86.2％ 26.7％ 96.7％ 39.9％ 92.7％ 41.6％ ───────────────────────────────────

【００４３】表７から明らかなように、粒度の違いにつ
いては、品詞・活用形・活用型の場合が最も良い結果と
なった。以前の我々の研究においても、品詞では粒度が
荒らすぎ、単語では被覆率の観点で良くなかったため、
妥当な結果と考えられる。また、参照する範囲について
は、前２単語と後１単語の方が前後２単語（合計４単
語）よりも良かった。そこで、品詞・活用形・活用型の
並びに関して、前後２単語を参照する場合と、前２単語
と後１単語を参照する場合について、さらに最適なしき
い値を探してみた。結果を表８に示す。

【００４４】

【表８】最適なしきい値に基づく再現率と適合率 ──────────────────────────── 条件品詞・活用形・活用型閾値再現率適合率 ──────────────────────────── 前後２単語０．３７８０．５％６４．７％ ──────────────────────────── 前２単語と後１単語０．４３８８．６％６５．７％ ────────────────────────────

【００４５】表８から明らかなように、やはり、前２単
語と後１単語の品詞・活用形・活用型の並びを利用した
場合が最も良い。誤りおよび涌き出し誤りの内容を次に
示す。あらかじめ要約すると、その分析内容も、前２単
語と後１単語の範囲を見れば十分であることを示唆して
いる。

【００４６】誤りの分析しきい値を０．４３として、前２単語と後１単語の品詞
・活用形・活用型の並びを利用した場合の誤りは１４件
あった。その内容を分析する。発話の途中の感動詞の直
後が２件あった。発話の途中の感動詞の直後は読点で書
き起こされることが多いためである。対策としては、感
動詞の直後に接続助詞が続かない限り（「涌き出し誤り
の分析」に例を示す。）句点相当の節境界とするという
経験的知識（ヒューリスティックス）が考えられる。次
に例を示す。行の先頭の「×」記号は誤り例を意味す
る。「＋」記号は単語の区切り位置を示す。［］記号の
中にポーズの長さや発話単位等の情報を加えた。「・」
記号が現在位置を示す。ここで、ｍｓはミリ秒である。

【数７】 ×様＋ありがとうございました［６０ｍｓ］・また

【００４７】接尾辞の直後が５件あった。そのうちの３
件は別の発話単位となっている。同じ発話単位に含まれ
るものは２件あり、そこには２８５ｍｓと３５０ｍｓの
ポーズがあった。次に例を示す。

【数８】×千＋円［発話単位終了］・和室

【数９】×鈴木＋様［２８５ｍｓ］・それでは

【００４８】名詞類の直後が２件あった。そのうち１件
は別の発話単位となっている。同じ発話単位に含まれる
１件については、６１５ｍｓのポーズが挿入されてい
た。次に例を示す。

【数１０】×零＋零［発話単位終了］・ご

【数１１】×ご＋滞在［６１５ｍｓ］・零

【００４９】接続助詞の直後が５件あった。１秒程度以
上の長いポーズが挿入されるか、発話単位が終わらない
限り、接続助詞の直後は読点で書き起こされているため
と考えられる。そのうち４件は別の発話単位となってい
る。同じ発話単位に含まれる１件については９９０ｍｓ
のポーズが挿入されていた。次に例を示す。

【数１２】×す＋が［発話単位終了］・予約

【数１３】×た＋もんですから［９９０ｍｓ］・あ箇条発話の扱いを除けば、若干の経験的知識（ヒューリ
スティックス）を導入したり、ポーズとの関係を調べる
ことで対処可能なものである。

【００５０】涌き出し誤りの分析しきい値を０．４３として、前２単語と後１単語の品詞
・活用形・活用型の並びを利用した場合の涌き出し誤り
は５７件あった。その内容を分析する。発話の先頭の感
動詞の直後が４５件あった。発話の先頭の感動詞の直後
は句点で書き起こされていることが多いためである。こ
れらの事例は句点とみなしても構わない。次に例を示
す。行の先頭の「※」記号は涌き出し誤り例を意味す
る。他の記号は同様である。

【数１４】※＋はい［６４０ｍｓ］・いつ

【数１５】※＋はい［１１０ｍｓ］・そう

【００５１】終助詞の直後の涌き出し誤りが７件あっ
た。これらもすべて句点とみなしても構わない。次に例
を示す。

【数１６】※す＋か［５９０ｍｓ］・じゃあその他の事例が５件あった。すべて頻度のまれな個別的
な事例であった。対策としては、助動詞終止形と終助詞
の間や、感動詞の直後に接続助詞が続く場合は句点相当
の節境界とはしない等の経験的知識（ヒューリスティッ
クス）が考えられる。次に例を示す。

【数１７】※し＋た・っけ ※大変＋申し訳ございません・が若干のヒューリスティックスを導入することで対処可能
な事例を除けば、ほとんどすべてが句点相当の節境界と
みなして構わないものであった。

【００５２】経験的知識（ヒューリスティックス）導入
の効果涌き出し誤り５７件のうち、発話の先頭の感動詞の直後
４５件と終助詞の直後７件の合計５２件については、句
点相当の節境界とみなして良い。そこで、それらはすべ
て句点を正解とみなし、かつ、妥当な経験的知識（ヒュ
ーリスティックス）を導入して、再現率と適合率を求め
た。結果を表４に示す。再現率、適合率ともに改善でき
た。

【００５３】

【表９】経験的知識（ヒューリスティックス）導入の効果 ─────────────────────────────────── 条件品詞・活用形・活用型閾値句点の追加経験的知識再現率適合率 ─────────────────────────────────── 前２単語と後１単語 0.43 なしなし 88.6％ 65.7％ ─────────────────────────────────── 前２単語と後１単語 0.43 ありなし 92.0％ 97.0％ ─────────────────────────────────── 前２単語と後１単語 0.43 ありあり 97.7％ 99.4％ ───────────────────────────────────

【００５４】音声認識結果への適用実験図１の音声認識装置５０の結果を用いて、句点相当の節
境界を検出する実験を行なった。書き起こしテキストに
よる評価実験を行なったホテル予約９会話を対象とし
た。書き起こしテキストを用いた予備実験では発話権の
交代（ターン）毎に１つの入力単位としたが、音声認識
結果を対象とする場合は発話単位を１つの入力単位とし
た。第１位候補に対する次に例を示す。

【００５５】

【表１０】 ─────────────────────────────────── 書き起こし：お待たせいたしました。申し訳ございません。シングルは満室となっております。 ─────────────────────────────────── 認識結果：お＋待／た／し／いた＋し＋ま＋し＋た○／申し訳ございません○／十／五／満室／に＋な＋っ＋てお＋り＋ま＋す○ ───────────────────────────────────

【００５６】認識結果の「／」記号は音声認識で使って
いる単語辞書の区切りを表す。認識結果の「＋」記号は
データベースの形態素辞書の区切りを表す。「○」は検
出できた句点相当の節境界のうち、正解とみなせるもの
を次に示す。

【００５７】

【表１１】 ─────────────────────────────────── 書き起こし：［んー］ちょっと高いですね。もっと安い部屋は無いですか。 ─────────────────────────────────── 認識結果：二※／ちょっと／高／い／で＋す＋ね○／オー／で＋す※／いや／な／い／で＋す＋か○ ───────────────────────────────────

【００５８】書き起こしの［んー］は間投詞を表す。
「※」は涌き出し誤りを示す。音声認識で使っている単
語辞書では、話し言葉の文末表現に相当するものを１つ
の長い単位で扱うことが多いため、文末表現の位置に誤
認識が少ない。良好な結果を得た。さらに、韻律情報を
組み合わせても構わない。パワーの変化や音韻の継続時
間長を考慮しても良い。組み合わせ方は経験的知識（ヒ
ューリスティックス）の導入と同様である。

【００５９】以上説明したように本実施形態によれば、
処理単位変換部７を備えたので、自由な入力単位を文又
は文相当の言語処理単位に適切に変換することができる
音声言語処理単位変換装置を提供することができる。

【００６０】

【発明の効果】以上詳述したように本発明に係る請求項
１記載の音声言語処理単位変換装置によれば、任意の入
力単位で自由発話された入力発声音声を音声認識した結
果の単語列を、文の単位又は文に相当する単位である言
語処理単位に変換して出力する音声言語処理単位変換装
置であって、形態素解析されたテキストデータに基づい
て複数の単語及び品詞並びに対して句点に対応する節境
界らしさを表わすスコアを予め計算して統計モデルとし
て記憶する第１の記憶装置と、形態素解析されたテキス
トデータに基づいて句点挿入箇所の韻律情報の経験的知
識を予め抽出して経験的規則として記憶する第２の記憶
装置と、上記統計モデル及び上記経験的規則を参照し
て、かつ無音区間を検出して、上記音声認識した結果の
単語列について、１つの入力単位の音声認識結果を複数
の言語処理単位に分割する分割処理と、複数の入力単位
の音声認識結果を１つの言語処理単位に接合する接合処
理を実行することにより、上記音声認識した結果の単語
列を、上記言語処理単位に変換して出力する処理単位変
換手段とを備える。従って、自由な入力単位を文又は文
相当の言語処理単位に適切に変換することができる音声
言語処理単位変換装置を提供することができる。

【００６１】また、請求項２記載の音声言語処理単位変
換装置においては、請求項１記載の音声言語処理単位変
換装置において、上記処理単位変換手段は、上記統計モ
デルを参照して、上記音声認識した結果の単語列のうち
の複数の単語及び品詞並びについて節境界らしさを表わ
すスコアを計算し、計算されたスコアが所定のしきい値
を超えるときに句点を挿入し、かつ上記経験的規則を参
照して、上記音声認識した結果の単語列における句点挿
入箇所を修正して、句点挿入箇所に上記言語処理単位の
終了を表わす第２の記号を挿入する句点挿入処理手段
と、上記音声認識した結果の単語列において句点が挿入
されなかった箇所に、所定の時間以上のポーズがあると
きは無音区間として検出して読点を挿入する読点挿入処
理手段と、初期状態のときに内部状態を第１の状態と
し、上記第１の状態のときに自由発話の開始時であると
き上記言語処理単位の開始を表わす第１の記号を挿入
し、自由発話の最後の直前の位置に上記第２の記号が挿
入されているとき内部状態を第１の状態とし、自由発話
の最後の直前の位置に上記第２の記号が挿入されていな
いとき内部状態を第２の状態とすることの処理を、上記
音声認識した結果の単語列に対して実行する分割接合処
理手段とを備え、上記処理単位変換手段の処理後の結果
において、上記第１の記号と上記第２の記号との間を上
記言語処理単位として認識する。従って、自由な入力単
位を文又は文相当の言語処理単位に適切に変換すること
ができる音声言語処理単位変換装置を提供することがで
きる。

【図面の簡単な説明】

【図１】本発明に係る一実施形態である音声言語処理
装置の構成を示すブロック図である。

【図２】図１の処理単位変換部７の処理の一例を示す
タイミングチャートである。

【図３】（ａ）は図１の処理単位変換部７において実
行される分割処理の一例を示すタイミングチャートであ
り、（ｂ）は図１の処理単位変換部７において実行され
る接合処理の一例を示すタイミングチャートである。

【図４】図１の処理単位変換部７において実行される
処理単位変換処理を示すフローチャートである。

【図５】図４のサブルーチンである句点挿入処理を示
すフローチャートである。

【図６】図４のサブルーチンである読点挿入処理を示
すフローチャートである。

【図７】図４のサブルーチンである分割接合処理を示
すフローチャートである。

【符号の説明】

１…マイクロホン、１ａ…Ａ／Ｄ変換器、２…音声終端検出部、３…特徴抽出部、４…バッファメモリ、５…音声認識部、６…バッファメモリ、７…処理単位変換部、８…日英翻訳部、１０…統計モデル計算部、１１…経験的処理部、２０…コーパスデータベースメモリ、２１…統計モデルメモリ、２２…経験的規則メモリ、３１…隠れマルコフモデル（ＨＭＭ）メモリ、３２…統計的言語モデル、５０…音声認識装置。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩＧ０６Ｆ 17/28 Ｇ０６Ｆ 15/38 Ｑ (56)参考文献特開昭61−285570（ＪＰ，Ａ) 特開昭56−114041（ＪＰ，Ａ) 竹澤ら「発話単位の分割または接合による言語処理単位への変換」信学技報ＳＬＰ18−４、ｐｐ19−24（1997) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 3/00 - 9/20 G06F 3/16 G06F 17/22 G06F 17/28 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】任意の入力単位で自由発話された入力発
声音声を音声認識した結果の単語列を、文の単位又は文
に相当する単位である言語処理単位に変換して出力する
音声言語処理単位変換装置であって、形態素解析されたテキストデータに基づいて複数の単語
及び品詞並びに対して句点に対応する節境界らしさを表
わすスコアを予め計算して統計モデルとして記憶する第
１の記憶装置と、形態素解析されたテキストデータに基づいて句点挿入箇
所の韻律情報の経験的知識を予め抽出して経験的規則と
して記憶する第２の記憶装置と、上記統計モデル及び上記経験的規則を参照して、かつ無
音区間を検出して、上記音声認識した結果の単語列につ
いて、１つの入力単位の音声認識結果を複数の言語処理
単位に分割する分割処理と、複数の入力単位の音声認識
結果を１つの言語処理単位に接合する接合処理を実行す
ることにより、上記音声認識した結果の単語列を、上記
言語処理単位に変換して出力する処理単位変換手段とを
備えたことを特徴とする音声言語処理単位変換装置。
【請求項２】請求項１記載の音声言語処理単位変換装
置において、上記処理単位変換手段は、上記統計モデルを参照して、上記音声認識した結果の単
語列のうちの複数の単語及び品詞並びについて節境界ら
しさを表わすスコアを計算し、計算されたスコアが所定
のしきい値を超えるときに句点を挿入し、かつ上記経験
的規則を参照して、上記音声認識した結果の単語列にお
ける句点挿入箇所を修正して、句点挿入箇所に上記言語
処理単位の終了を表わす第２の記号を挿入する句点挿入
処理手段と、上記音声認識した結果の単語列において句点が挿入され
なかった箇所に、所定の時間以上のポーズがあるときは
無音区間として検出して読点を挿入する読点挿入処理手
段と、初期状態のときに内部状態を第１の状態とし、上記第１
の状態のときに自由発話の開始時であるとき上記言語処
理単位の開始を表わす第１の記号を挿入し、自由発話の
最後の直前の位置に上記第２の記号が挿入されていると
き内部状態を第１の状態とし、自由発話の最後の直前の
位置に上記第２の記号が挿入されていないとき内部状態
を第２の状態とすることの処理を、上記音声認識した結
果の単語列に対して実行する分割接合処理手段とを備
え、上記処理単位変換手段の処理後の結果において、上記第
１の記号と上記第２の記号との間を上記言語処理単位と
して認識することを特徴とする音声言語処理単位変換装
置。