JP2907828B2

JP2907828B2 - 音声対話型文書作成装置

Info

Publication number: JP2907828B2
Application number: JP62297567A
Authority: JP
Inventors: 信夫畑岡; 熹市川; 明雄天野; 俊一矢島
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1987-11-27
Filing date: 1987-11-27
Publication date: 1999-06-21
Anticipated expiration: 2014-06-21
Also published as: JPH01140369A

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は音声を利用した文書作成システムに係り、特
にユーザがシステムと自由に対話しながら文書を作成す
るのに好適な文書作成装置に関する。〔従来の技術〕音声を入力手段とした文書作成システム（いわゆる音
声タイプライタ）は、従来のキーボードを入力手段とし
たタイプライターに比べて、キー操作の煩雑さがない等
の理由から、その実現が待ち望まれている。しかし、通
常の速さで発声された音声を正確に認識することは非常
に難しい技術となつている。この結果、音声タイプライ
タは古くから研究・開発されているにまかかわらず、未
だ実現されていない。従来の音声タイプライタの実現に向けた技術として
は、日本音響学会音声研究会資料S80−68（1981−１）
「単音節音声認識の一方法」に記載のように単音節（子
音−母音）の音声を入力単位としたもの、日本音響学会
音声研究会資料S85−62（1985−12）「音節をベースと
する日本語音声認識」に記載のように文節の音声を入力
単位としたものなどが知られている。〔発明が解決しようとする問題点〕上記従来技術の単音節を入力単位とする方法は、通常
に発声された文章を認識する難しさを回避する方法とし
て有効なものではあるが、単音節単位に発声すること自
体が不自然であり、難しいという問題があつた。一方、
文節を入力単位とする方法は、発声の不自然さはかなり
改善されるものの、通常の話し方ではないことや文節の
一字一句を認識することが難しいという問題があつた。
さらに、上記いずれの方法でも、作成したい文書を音声
で正確に入力しなければならず、書き言葉と話し言葉の
違いに起因して、音声を使うメリツトが失われるという
問題があつた。本発明の目的は上記従来の問題を解決して、入力の仕
方が自然で、かつ音声を入力手段として使うメリツトを
最大に活かした音声による文書作成装置を提供すること
にある。〔問題点を解決するための手段〕上記目的は、ユーザがシステムと自由に対話しながら
入力された音声のキーワードだけを探索，認識し、ユー
ザが本来作成しようとする文書をキーワード群から推定
することにより、達成される。〔作用〕本発明の結果、ユーザは自由な話し言葉でシステムに
入力できるので、音声を使つて文書作成する最大のメリ
ツトが失われることがなく、効率の良い文書作成システ
ムが可能となる。〔実施例〕以下、本発明の一実施例を第１図により説明する。第
１図は本発明の音声による文書作成装置の一実施例を示
すブロツク図である。対話型で入力された音声１は、音
声分析部２で音声の特徴パラメータが所定時間（フレー
ム）ごとに計算される。次に、キーワード探索部３では
音声の特徴パラメータを使つて、発音声が伝えたい、即
ち入力したい単語など、いわゆるキーワードの位置の探
索が行なわれ、そのキーワードの内容の認識がキーワー
ド認識部４で実行される。文節生成部５では、内容のわ
かつたキーワード列から、発声者が入力したい文章（文
節で構成されている）が生成される。この結果、ユーザ
（発声者）が作成したい文書が推定，生成され、文書表
示・出力部６で、デイスプレイに文書が表示されたり、
音声でスピーカーから出力されたりする。選択・修正部
７では表示あるいは出力されたひとつあるいは複数の候
補文書から妥当なものを選択したり、妥当なものがない
場合は再度入力や誤り個所の修正が行なわれ、最終的に
作成したい文書が完成されることになる。以上の処理
は、制御部８で制御されながら実行される。以下、第１図で示した各処理部について詳細に説明す
る。第２図は音声分析部２の一実施例を詳細に示したもの
である。アナログ入力音声はLPF（低域通過フィルタ）2
1,ADC（アナログ−デイジタル変換器）22で、サンプリ
ングでの折り返し雑音を除去されながらデイジタル値へ
変換される。次に、特徴パタン抽出部23で音声の特徴パ
ラメータが所定時間（フレーム）ごとに計算され、入力
音声の特徴パタンが抽出される。音声の特徴パラメータ
としては、BPF（帯域通過フィルタ）出力値やLPC分析
（線形予測分析）結果の各種パラメータなどが用いられ
る。韻律情報抽出部24では、音声の強勢又は抑揚などの
韻律的情報を表わす特徴パラメータ（例えば、パワーや
ピツチ周期）が抽出される。第３図は特徴パタン抽出部23の一実施例を詳細に示し
たものである。実施例ではBPF分析をあげている。デイ
ジタル値に変換された登録音声x_nは中心周波数と帯域値
の違うＫ個のBPF群231に入力される。BPF231は２次のパ
ターワース型フイルタとなつており、加算器２個，乗算
器４個，遅延器２個から構成されている。BPF出力の波
形は絶対値（ABS）232にて整流され、LPF233にて高域周
波数成分をカツトされながら登録音声パタンX_i（i;フレ
ーム）が求められる。LPF233はBPF231同様の処理規模の
バターワース型となつている。本発明では音声分析部３の構成をBPF分析としたが、L
PC分析とすることも可能である。この場合の詳細な実施
例は文献「音声波形の線形予測分析による音声分析と合
成（Speech Analysis and Synthesis by Linear Predic
tion of the Speech Wave）」by B.S.Atal et al,Journ
al of Acoustic Society of America,Vol.50,p.p.637〜
655（1971）に詳細に説明されている。第４図は韻律情報抽出部24の一実施例を詳細に示した
ものである。韻律情報を表わすパラメータとしてはパワ
ーとピツチ周期をあげている。パワー算出部241では入力音声x_nのＭ時点からのパワ
ーＰ（短時間エネルギー）が次式に基づいて算出され
る。ここで、Ｎは１フレームのサンプル点数を示す。第４
図の実施例では、入力音声x_nを入力として乗算器2411に
てx_n ²＝x_n×x_nが求められ、加算器2412にて、ｎ−１時
点までのパワーの中間値（但し、式（１）のＭ＝０と簡略化）とx_n ²が加算さ
れ、新らたにｎ時点でのパワー中間値P_nが求められる。
以下、遅延バツフア2413を経由して、同様の処理が繰返
され、最終パワーＰが求められる（ｎ＝Ｎに対応）。ピツチ周期算出部242ではセンタークリツピングされ
た波形の自己相関関数から入力音声波形のピツチ周期が
求められる。ピツチ周期（逆数をピツチ周波数、基本周
波数という）は音の高低を司る重要なパラメータであ
り、発声者の口の形状（専門的には声道の長さ）という
物理的な特性から基本的には決定され、強調あるいは抑
揚によつて多少の値の変動が引き起こされる。ピツチ周
期の算出方法は数多くあるが、未だ完全な手法は見い出
されていない。本発明での実施例として、波形の自己相
関関数から導出する方法を使つている。この手法は文献
「音声信号のデイジタル処理（Digital Processing of
Speech Signals）」by L.R.Rabiner et al,PRENTICE−H
ALL,P150−157に詳細に説明されている。以下、手法に
関して簡単に説明する。センタークリツピングされた波
形y_nは、次式から求まる。 y_n＝Ｃ〔x_n〕 …（２）ここで、Ｃ〔ｘ〕はセンタークリツピング関数であ
る。ピツチ周期はセンタークリツピングされた波形のｉ
次の自己相関関数Ｒ（ｉ）の値の大きさの比較から求められる。つまり、ピツチ周
期をt_Pとすれば、Ｒ（ｉ）Ｒ（０）ｉ＝t_P,2t_P,3t_P ……（４）Ｒ（ｉ）０ｉは上記以外の関係があり、ピツチ周期t_PがRiの値の大小から求めら
れる。第４図の実施例では、クリツピング関数メモリ24
22から読み込まれたクリツピング関数Ｃ〔ｘ〕と入力音
声波形x_nとの乗算が乗算器2421にて実行され、センター
クリツピングされた波形y_nが求められる。次に、ｉ次の
遅延バツフア2423を使つて、y_nとy_n-iとの積が乗算器24
24にて求められる。加算器2425では、ｎ−１時点までの
ｉ次の自己相関関数中間値とが加算され、新らたにｎ時点での中間値R_n（ｉ）が求
められる。以下、遅延バツフア2426を経由して、同様の
処理が繰返された最終値Ｒ（ｉ）が求められることにな
る。次に、Ｒ（ｉ）の値を入力として、比較器2427にて
値の大小が比較され、式（４）の関係からピツチ周期t_P
が求められる。第５図はキーワード探索部３の一実施例を詳細に示し
たものである。実施例を説明する前に、キーワード探索
の原理を説明する。発声者が伝えようと意図した情報は
一般にゆつくり発声するか、その内容（主に単語）を強
調して発声することが知られている。このように、韻律
情報は発声内容に対して合理的・自然的な情報であり、
話し言葉を意味的なまとまりに分割するための重要な情
報となつている。以上の詳細な説明は特開昭62−232700
号公報「音声会話文構造推定方式」に示されている。本
発明でのキーワード探索部３は、上記特開昭62−232700
号公報に記載された一実施例を使つたものとなつてい
る。具体的には、入力音声分割部31にて、音声の強調ま
たは抑揚などの韻律情報（ピツチ周期やパワー）の特徴
に基づいて入力音声を意味的なまとまりに分割し、言い
まわし推定部32にて上記韻律情報の特徴から発声の言い
まわしを推定した後、文構造推定部33にて、文構造辞書
34から読み込まれた情報を使つて入力音声の文構造が推
定される。尚、文書構造辞書34から読み込まれた情報と
は、構文規則及びその発声様式に関する規則である。次
に、文構造の情報を使つて、意味的に重要な語（キーワ
ード）がキーワード抽出部35にて求められ、キーワード
探索が実行されることになる。第６図はキーワード認識部４の一実施例を詳細に示し
たものである。入力音声パタンX_iを入力として、音素認
識部41にて音素標準パタンメモリ42から読み込まれた標
準音素の特徴パタンを使つて、キーワードを構成してい
る音素の認識が行なわれる。次に、予備選択部43では音
素認識部で出力された音素系列から候補単語の絞り込み
が行なわれ、単語辞書メモリ45に含まれる語彙の限定が
なされる。単語照合部44では単語辞書メモリ45から読み
込まれた限定された語彙の音素記号列と音素認識部41で
得られたキーワードの音素系列との比較，照合が記号系
列上にて実行される。判定部46では記号照合結果を用い
て、キーワードの内容の認識結果が出力される。第７図は音素認識部41の一実施例を詳細に示したもの
である。距離計算器411では入力音声パタンX_i音素標準
パタンY_jとのフレーム間距離d_ijが算出され、照合部412
にて入力音声と音素標準との照合が行なわれる。照合部
は一般にDP（Dynamic Programming）マツチング処理が
実行される。次に候補判定部413では、標準パタンｍに
対する照合値（ここでJ_mは標準パタンｍのフレーム長）から、例えば
最小値を与える標準パタンｍが求められ、音素記号列IP
HCD（ｋ）（ここでｋは音素列番号）が出力される。第８図は距離計算部の一実施例を詳細に示すものであ
る。本実施例では絶対値距離を用いた場合を示す。２つ
の音声の特徴はパタンX_iとY_jとの絶対距離d_ijはとして求まる。ここでi,jはフレーム、ＫはBPFのチヤネ
ル数である。従つて、実施例では、２つの特徴パタン
X_i,Y_jとが各々フレームパタンレジスタ4111,4112を介し
ながら入力され、減算器4113でx_ki−y_kjの計算、絶対値
変換器4114で|x_ki−y_kj|の計算がされ、加算器4115でｋ
＝１からＫまでの累積が計算されることになる。結果d
_ijは距離レジスタ4116に格納される。本発明の実施例で
は絶対値距離としたが、LPC分析で得られる特徴パタン
の相関尺度なども考えられる。この場合の具体的実施例
は文献「音声認識に適用した最小予測誤差原理（Minimu
m Prediction Residual Principle Applied to Speech
Recognition）」by F.Itakura et al.IEEE Trans on Ac
oustics,Speech and Signal Processing,vol.ASSP−23,
p.p.57〜72（Feb.1975）に詳細に説明されている。第９図は照合部412の一実施例を詳細に示したもので
ある。原理は特開昭55−2205号「連続DP法」を改良した
ものである。入力音声のｉフレームと標準パタンのｊフ
レームとのフレーム間距離d_ijをもとに、累積距離D_ijが
次の漸化式を使つて算出される。以上の漸化式から、入力音声の各フレームｉごとに、
標準パターンｍに対する最適照合値が求められる（J_mは標準パタンｍのフレーム長）。照合部412の具体的な実施例は、入力音声と標準パタ
ーンとのフレーム間距離d_ijがフレーム距離レジスタ412
1を介して入力され、遅延メモリ4122と中間累積距離格
納メモリ4127を用いて、（６）式のｄ_{ｉ−1,j−１}やＤ
_{ｉ−1,j−２},D_{ｉ−1,j−１},D_{ｉ−2,j−１}が記憶され
る。各々の距離値をもとに加算器4123ではパスのＤ
_{ｉ−1,j−２}＋ｄ_{ｉ−1,j−１}、加算器4124ではパスの
Ｄ_{ｉ−2,j−１}＋ｄ_{ｉ−1,j−１}が算出され、パスのＤ
_{ｉ−1,j−１}とともに比較器4125で最小値が探索され
る。さらに加算器4126で2d_ijが最小値に加算され、中間
累積距離D_ijが新たに求められる。この結果は中間累積
距離格納メモリ4127に格納され、Ｄ_{ｉ＋1,j＋１}の算出
の情報となる。照合部では入力音声のｉフレームごとに
標準パタンｍとの最適照合値を出力し（ｉフレームは母音区間情報i_sk〜i_ekの範囲
内）、候補判定部413の入力となる。判定部では照合値の大小関係から、入力音声などの標準音声に最も似てい
るかの判定がなされる。判定部は単純な大小比較器で構
成される。第10図は予備選択部43あるいは単語照合部44の一実施
例を詳細に示したものである。予備選択部と照合部は本
質的に同じ構成で実現されるので、処理のメインである
照合部43の説明を詳細に行う。キーワードの音素認識結
果の音素記号列IPHCD（ｋ）とが単語辞書から読み込ま
れた標準単語の音素記号列と各々音素記号列レジスタ43
1,432を介しながら入力される。次に比較器433では各々
の音素記号列間の比較がひとつのコード毎に行なわれ、
加算器434にて全系列での差（総距離）が求められる。
全標準単語での総距離の大小比較が距離レジスタ435を
介して、比較器436にて実行され、認識結果（最小総距
離となる標準単語）が出力される。予備選択部43の場合
は、単語辞書から読み込まれる標準単語の音素記号列は
単語辞書の語彙を大分類した際の共通母音記号列等の情
報となるだけで、以下の処理は単語照合部44と同様に行
なわれる。判定部46は単純な大小比較器で構成される。第11図は文節生成部５の一実施例を詳細に示したもの
である。内容のわかつたキーワード列とキーワード探索
部３で得られた文構造情報とを入力として、擬似文節生
成部51では文構造にあつた付属語（例えば「て」「に」
「を」「は」等）をキーワードに付加して、擬似的に文
節候補を生成する。具体的な例として、キーワード列が
「私」「発明者」であつた場合、文構造情報は主語＋補
語＋述語の文型となるのが妥当であり、その時の擬似文
節生成結果は「私は」あるいは「私が」，「発明者で
す」あるいは「発明者だ」等が考えられる。述語に関し
ては時制や「です／だ」調等によりさらに複数の候補が
考えられるが、既に選択，作成された結果から時制や
「です／だ」調を推定し、候補に優先順次が付けられて
出力されることになる。次に、上記擬似的に生成された
文節候補に対して通常の言語処理を実行して（形態素解
析部53,構文意味解析部55,意味解析部57により構成）、
言語としてもつとも妥当な文節群，即ち文章を文節統合
部58の出力として出す。第12図は文書表示・出力部６の一実施例を詳細に示し
たものである。文節生成部５の出力である仮名漢字コー
ド列を入力として、スイツチ60により表示か出力かの処
理へ振り分けられる。表示を選択した場合は、仮名漢字
コードを表記に変換した情報がCRT61に出力される。音
声出力を選択した場合は、次のテキスト合成部62により
仮名漢字コード列の音声出力がなされる。仮名漢字コー
ド列は言語処理部621にて言語情報メモリ622を使つて、
構文・意味解析が実行される。さらに、韻律決定部623
にて強勢，抑揚などのイントネーシヨンやアクセントが
決定される。入力が既にイントネーシヨンやアクセント
情報を持つた仮名コード列の場合は、上記言語処理部62
1,言語情報メモリ、韻律決定部623は不要となる。次
に、強勢や抑揚情報を持つ仮名コード列を音声に変換す
る、いわゆるテキスト合成の音声合成部として、制御パ
ラメータ生成部624にて各仮名コードに対応した音素や
音節のスペクトルパラメータと有無・無声情報およびピ
ツチ情報などの音源パラメータが音源／スペクトルパラ
メータメモリ625から読み込まれ、音声波形合成部626に
て合成フイルタを通すことにより音声波形が合成され
る。合成された音声波形はデイジタル−アナログ変換器
（D/A）63を経由して、スピーカ64から音として出力さ
れる。なお、第１図の本発明の一実施例において、文節生成
部５を省略して、直接キーワード認識部４で得られるキ
ーワード列から出力音声を合成する、いわゆる概念合成
による出力処理も考えられる。〔発明の効果〕本発明によれば、ユーザがシステムと自由に対話しな
がら文書を作成できるので、音声を入力手段として使う
メリツトを最大限に使い、かつ効率の良い文書作成がで
きる効果がある。

【図面の簡単な説明】第１図は本発明の一実施例を示す文書作成装置のブロツ
ク図、第２図から第12図は第１図の各処理部の一実施例
を詳細に示すブロツク図である。３……キーワード探索部、４……キーワード認識部、５
……文節生成部。

───────────────────────────────────────────────────── フロントページの続き (72)発明者矢島俊一東京都国分寺市東恋ケ窪１丁目280番地株式会社日立製作所中央研究所内 (56)参考文献特開昭62−232700（ＪＰ，Ａ) 特開昭61−80359（ＪＰ，Ａ) 特開昭59−5298（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 3/00 - 9/18 G06F 3/16,15/20 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】１．入力された音声の特徴パタン及び韻律情報を抽出す
る音声分析手段と、上記入力音声からキーワードを抽出し、かつ上記韻律情
報から上記入力音声の文構造を推定して出力する手段
と、上記抽出されたキーワードを認識する手段と、上記認識されたキーワードと上記推定された文構造とに
従い、付属語辞書を用いて付属語を推定し、上記推定さ
れた付属語を上記認識されたキーワードに付加して、上
記入力音声により表現された文章の候補を生成する手段
と、上記生成された文章の候補を出力し、該出力に対する選
択または修正の指示入力に応じて最終的な文章を出力す
る手段とを備えていることを特徴とする音声対話型文書
作成装置。２．上記出力手段は、ディスプレイ上に表示出力又は音
声にて出力する手段であることを特徴とする特許請求の
範囲第１項に記載の音声対話型文書作成装置。