JP2907828B2 - 音声対話型文書作成装置 - Google Patents

音声対話型文書作成装置

Info

Publication number
JP2907828B2
JP2907828B2 JP62297567A JP29756787A JP2907828B2 JP 2907828 B2 JP2907828 B2 JP 2907828B2 JP 62297567 A JP62297567 A JP 62297567A JP 29756787 A JP29756787 A JP 29756787A JP 2907828 B2 JP2907828 B2 JP 2907828B2
Authority
JP
Japan
Prior art keywords
voice
unit
input
keyword
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP62297567A
Other languages
English (en)
Other versions
JPH01140369A (ja
Inventor
信夫 畑岡
熹 市川
明雄 天野
俊一 矢島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP62297567A priority Critical patent/JP2907828B2/ja
Publication of JPH01140369A publication Critical patent/JPH01140369A/ja
Application granted granted Critical
Publication of JP2907828B2 publication Critical patent/JP2907828B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は音声を利用した文書作成システムに係り、特
にユーザがシステムと自由に対話しながら文書を作成す
るのに好適な文書作成装置に関する。 〔従来の技術〕 音声を入力手段とした文書作成システム(いわゆる音
声タイプライタ)は、従来のキーボードを入力手段とし
たタイプライターに比べて、キー操作の煩雑さがない等
の理由から、その実現が待ち望まれている。しかし、通
常の速さで発声された音声を正確に認識することは非常
に難しい技術となつている。この結果、音声タイプライ
タは古くから研究・開発されているにまかかわらず、未
だ実現されていない。 従来の音声タイプライタの実現に向けた技術として
は、日本音響学会音声研究会資料S80−68(1981−1)
「単音節音声認識の一方法」に記載のように単音節(子
音−母音)の音声を入力単位としたもの、日本音響学会
音声研究会資料S85−62(1985−12)「音節をベースと
する日本語音声認識」に記載のように文節の音声を入力
単位としたものなどが知られている。 〔発明が解決しようとする問題点〕 上記従来技術の単音節を入力単位とする方法は、通常
に発声された文章を認識する難しさを回避する方法とし
て有効なものではあるが、単音節単位に発声すること自
体が不自然であり、難しいという問題があつた。一方、
文節を入力単位とする方法は、発声の不自然さはかなり
改善されるものの、通常の話し方ではないことや文節の
一字一句を認識することが難しいという問題があつた。
さらに、上記いずれの方法でも、作成したい文書を音声
で正確に入力しなければならず、書き言葉と話し言葉の
違いに起因して、音声を使うメリツトが失われるという
問題があつた。 本発明の目的は上記従来の問題を解決して、入力の仕
方が自然で、かつ音声を入力手段として使うメリツトを
最大に活かした音声による文書作成装置を提供すること
にある。 〔問題点を解決するための手段〕 上記目的は、ユーザがシステムと自由に対話しながら
入力された音声のキーワードだけを探索,認識し、ユー
ザが本来作成しようとする文書をキーワード群から推定
することにより、達成される。 〔作用〕 本発明の結果、ユーザは自由な話し言葉でシステムに
入力できるので、音声を使つて文書作成する最大のメリ
ツトが失われることがなく、効率の良い文書作成システ
ムが可能となる。 〔実施例〕 以下、本発明の一実施例を第1図により説明する。第
1図は本発明の音声による文書作成装置の一実施例を示
すブロツク図である。対話型で入力された音声1は、音
声分析部2で音声の特徴パラメータが所定時間(フレー
ム)ごとに計算される。次に、キーワード探索部3では
音声の特徴パラメータを使つて、発音声が伝えたい、即
ち入力したい単語など、いわゆるキーワードの位置の探
索が行なわれ、そのキーワードの内容の認識がキーワー
ド認識部4で実行される。文節生成部5では、内容のわ
かつたキーワード列から、発声者が入力したい文章(文
節で構成されている)が生成される。この結果、ユーザ
(発声者)が作成したい文書が推定,生成され、文書表
示・出力部6で、デイスプレイに文書が表示されたり、
音声でスピーカーから出力されたりする。選択・修正部
7では表示あるいは出力されたひとつあるいは複数の候
補文書から妥当なものを選択したり、妥当なものがない
場合は再度入力や誤り個所の修正が行なわれ、最終的に
作成したい文書が完成されることになる。以上の処理
は、制御部8で制御されながら実行される。 以下、第1図で示した各処理部について詳細に説明す
る。 第2図は音声分析部2の一実施例を詳細に示したもの
である。アナログ入力音声はLPF(低域通過フィルタ)2
1,ADC(アナログ−デイジタル変換器)22で、サンプリ
ングでの折り返し雑音を除去されながらデイジタル値へ
変換される。次に、特徴パタン抽出部23で音声の特徴パ
ラメータが所定時間(フレーム)ごとに計算され、入力
音声の特徴パタンが抽出される。音声の特徴パラメータ
としては、BPF(帯域通過フィルタ)出力値やLPC分析
(線形予測分析)結果の各種パラメータなどが用いられ
る。韻律情報抽出部24では、音声の強勢又は抑揚などの
韻律的情報を表わす特徴パラメータ(例えば、パワーや
ピツチ周期)が抽出される。 第3図は特徴パタン抽出部23の一実施例を詳細に示し
たものである。実施例ではBPF分析をあげている。デイ
ジタル値に変換された登録音声xnは中心周波数と帯域値
の違うK個のBPF群231に入力される。BPF231は2次のパ
ターワース型フイルタとなつており、加算器2個,乗算
器4個,遅延器2個から構成されている。BPF出力の波
形は絶対値(ABS)232にて整流され、LPF233にて高域周
波数成分をカツトされながら登録音声パタンXi(i;フレ
ーム)が求められる。LPF233はBPF231同様の処理規模の
バターワース型となつている。 本発明では音声分析部3の構成をBPF分析としたが、L
PC分析とすることも可能である。この場合の詳細な実施
例は文献「音声波形の線形予測分析による音声分析と合
成(Speech Analysis and Synthesis by Linear Predic
tion of the Speech Wave)」by B.S.Atal et al,Journ
al of Acoustic Society of America,Vol.50,p.p.637〜
655(1971)に詳細に説明されている。 第4図は韻律情報抽出部24の一実施例を詳細に示した
ものである。韻律情報を表わすパラメータとしてはパワ
ーとピツチ周期をあげている。 パワー算出部241では入力音声xnのM時点からのパワ
ーP(短時間エネルギー)が次式に基づいて算出され
る。 ここで、Nは1フレームのサンプル点数を示す。第4
図の実施例では、入力音声xnを入力として乗算器2411に
てxn 2=xn×xnが求められ、加算器2412にて、n−1時
点までのパワーの中間値 (但し、式(1)のM=0と簡略化)とxn 2が加算さ
れ、新らたにn時点でのパワー中間値Pnが求められる。
以下、遅延バツフア2413を経由して、同様の処理が繰返
され、最終パワーPが求められる(n=Nに対応)。 ピツチ周期算出部242ではセンタークリツピングされ
た波形の自己相関関数から入力音声波形のピツチ周期が
求められる。ピツチ周期(逆数をピツチ周波数、基本周
波数という)は音の高低を司る重要なパラメータであ
り、発声者の口の形状(専門的には声道の長さ)という
物理的な特性から基本的には決定され、強調あるいは抑
揚によつて多少の値の変動が引き起こされる。ピツチ周
期の算出方法は数多くあるが、未だ完全な手法は見い出
されていない。本発明での実施例として、波形の自己相
関関数から導出する方法を使つている。この手法は文献
「音声信号のデイジタル処理(Digital Processing of
Speech Signals)」by L.R.Rabiner et al,PRENTICE−H
ALL,P150−157に詳細に説明されている。以下、手法に
関して簡単に説明する。センタークリツピングされた波
形ynは、次式から求まる。 yn=C〔xn〕 …(2) ここで、C〔x〕はセンタークリツピング関数であ
る。ピツチ周期はセンタークリツピングされた波形のi
次の自己相関関数R(i) の値の大きさの比較から求められる。つまり、ピツチ周
期をtPとすれば、 R(i)R(0) i=tP,2tP,3tP ……(4) R(i)0 iは上記以外 の関係があり、ピツチ周期tPがRiの値の大小から求めら
れる。第4図の実施例では、クリツピング関数メモリ24
22から読み込まれたクリツピング関数C〔x〕と入力音
声波形xnとの乗算が乗算器2421にて実行され、センター
クリツピングされた波形ynが求められる。次に、i次の
遅延バツフア2423を使つて、ynとyn-iとの積が乗算器24
24にて求められる。加算器2425では、n−1時点までの
i次の自己相関関数中間値 とが加算され、新らたにn時点での中間値Rn(i)が求
められる。以下、遅延バツフア2426を経由して、同様の
処理が繰返された最終値R(i)が求められることにな
る。次に、R(i)の値を入力として、比較器2427にて
値の大小が比較され、式(4)の関係からピツチ周期tP
が求められる。 第5図はキーワード探索部3の一実施例を詳細に示し
たものである。実施例を説明する前に、キーワード探索
の原理を説明する。発声者が伝えようと意図した情報は
一般にゆつくり発声するか、その内容(主に単語)を強
調して発声することが知られている。このように、韻律
情報は発声内容に対して合理的・自然的な情報であり、
話し言葉を意味的なまとまりに分割するための重要な情
報となつている。以上の詳細な説明は特開昭62−232700
号公報「音声会話文構造推定方式」に示されている。本
発明でのキーワード探索部3は、上記特開昭62−232700
号公報に記載された一実施例を使つたものとなつてい
る。具体的には、入力音声分割部31にて、音声の強調ま
たは抑揚などの韻律情報(ピツチ周期やパワー)の特徴
に基づいて入力音声を意味的なまとまりに分割し、言い
まわし推定部32にて上記韻律情報の特徴から発声の言い
まわしを推定した後、文構造推定部33にて、文構造辞書
34から読み込まれた情報を使つて入力音声の文構造が推
定される。尚、文書構造辞書34から読み込まれた情報と
は、構文規則及びその発声様式に関する規則である。次
に、文構造の情報を使つて、意味的に重要な語(キーワ
ード)がキーワード抽出部35にて求められ、キーワード
探索が実行されることになる。 第6図はキーワード認識部4の一実施例を詳細に示し
たものである。入力音声パタンXiを入力として、音素認
識部41にて音素標準パタンメモリ42から読み込まれた標
準音素の特徴パタンを使つて、キーワードを構成してい
る音素の認識が行なわれる。次に、予備選択部43では音
素認識部で出力された音素系列から候補単語の絞り込み
が行なわれ、単語辞書メモリ45に含まれる語彙の限定が
なされる。単語照合部44では単語辞書メモリ45から読み
込まれた限定された語彙の音素記号列と音素認識部41で
得られたキーワードの音素系列との比較,照合が記号系
列上にて実行される。判定部46では記号照合結果を用い
て、キーワードの内容の認識結果が出力される。 第7図は音素認識部41の一実施例を詳細に示したもの
である。距離計算器411では入力音声パタンXi音素標準
パタンYjとのフレーム間距離dijが算出され、照合部412
にて入力音声と音素標準との照合が行なわれる。照合部
は一般にDP(Dynamic Programming)マツチング処理が
実行される。次に候補判定部413では、標準パタンmに
対する照合値 (ここでJmは標準パタンmのフレーム長)から、例えば
最小値を与える標準パタンmが求められ、音素記号列IP
HCD(k)(ここでkは音素列番号)が出力される。 第8図は距離計算部の一実施例を詳細に示すものであ
る。本実施例では絶対値距離を用いた場合を示す。2つ
の音声の特徴はパタンXiとYjとの絶対距離dijとして求まる。ここでi,jはフレーム、KはBPFのチヤネ
ル数である。従つて、実施例では、2つの特徴パタン
Xi,Yjとが各々フレームパタンレジスタ4111,4112を介し
ながら入力され、減算器4113でxki−ykjの計算、絶対値
変換器4114で|xki−ykj|の計算がされ、加算器4115でk
=1からKまでの累積が計算されることになる。結果d
ijは距離レジスタ4116に格納される。本発明の実施例で
は絶対値距離としたが、LPC分析で得られる特徴パタン
の相関尺度なども考えられる。この場合の具体的実施例
は文献「音声認識に適用した最小予測誤差原理(Minimu
m Prediction Residual Principle Applied to Speech
Recognition)」by F.Itakura et al.IEEE Trans on Ac
oustics,Speech and Signal Processing,vol.ASSP−23,
p.p.57〜72(Feb.1975)に詳細に説明されている。 第9図は照合部412の一実施例を詳細に示したもので
ある。原理は特開昭55−2205号「連続DP法」を改良した
ものである。入力音声のiフレームと標準パタンのjフ
レームとのフレーム間距離dijをもとに、累積距離Dij
次の漸化式を使つて算出される。 以上の漸化式から、入力音声の各フレームiごとに、
標準パターンmに対する最適照合値 が求められる(Jmは標準パタンmのフレーム長)。 照合部412の具体的な実施例は、入力音声と標準パタ
ーンとのフレーム間距離dijがフレーム距離レジスタ412
1を介して入力され、遅延メモリ4122と中間累積距離格
納メモリ4127を用いて、(6)式のdi−1,j−1やD
i−1,j−2,Di−1,j−1,Di−2,j−1が記憶され
る。各々の距離値をもとに加算器4123ではパスのD
i−1,j−2+di−1,j−1、加算器4124ではパスの
i−2,j−1+di−1,j−1が算出され、パスのD
i−1,j−1とともに比較器4125で最小値が探索され
る。さらに加算器4126で2dijが最小値に加算され、中間
累積距離Dijが新たに求められる。この結果は中間累積
距離格納メモリ4127に格納され、Di+1,j+1の算出
の情報となる。照合部では入力音声のiフレームごとに
標準パタンmとの最適照合値 を出力し(iフレームは母音区間情報isk〜iekの範囲
内)、候補判定部413の入力となる。判定部では照合値 の大小関係から、入力音声などの標準音声に最も似てい
るかの判定がなされる。判定部は単純な大小比較器で構
成される。 第10図は予備選択部43あるいは単語照合部44の一実施
例を詳細に示したものである。予備選択部と照合部は本
質的に同じ構成で実現されるので、処理のメインである
照合部43の説明を詳細に行う。キーワードの音素認識結
果の音素記号列IPHCD(k)とが単語辞書から読み込ま
れた標準単語の音素記号列と各々音素記号列レジスタ43
1,432を介しながら入力される。次に比較器433では各々
の音素記号列間の比較がひとつのコード毎に行なわれ、
加算器434にて全系列での差(総距離)が求められる。
全標準単語での総距離の大小比較が距離レジスタ435を
介して、比較器436にて実行され、認識結果(最小総距
離となる標準単語)が出力される。予備選択部43の場合
は、単語辞書から読み込まれる標準単語の音素記号列は
単語辞書の語彙を大分類した際の共通母音記号列等の情
報となるだけで、以下の処理は単語照合部44と同様に行
なわれる。 判定部46は単純な大小比較器で構成される。 第11図は文節生成部5の一実施例を詳細に示したもの
である。内容のわかつたキーワード列とキーワード探索
部3で得られた文構造情報とを入力として、擬似文節生
成部51では文構造にあつた付属語(例えば「て」「に」
「を」「は」等)をキーワードに付加して、擬似的に文
節候補を生成する。具体的な例として、キーワード列が
「私」「発明者」であつた場合、文構造情報は主語+補
語+述語の文型となるのが妥当であり、その時の擬似文
節生成結果は「私」あるいは「私」,「発明者
」あるいは「発明者」等が考えられる。述語に関し
ては時制や「です/だ」調等によりさらに複数の候補が
考えられるが、既に選択,作成された結果から時制や
「です/だ」調を推定し、候補に優先順次が付けられて
出力されることになる。次に、上記擬似的に生成された
文節候補に対して通常の言語処理を実行して(形態素解
析部53,構文意味解析部55,意味解析部57により構成)、
言語としてもつとも妥当な文節群,即ち文章を文節統合
部58の出力として出す。 第12図は文書表示・出力部6の一実施例を詳細に示し
たものである。文節生成部5の出力である仮名漢字コー
ド列を入力として、スイツチ60により表示か出力かの処
理へ振り分けられる。表示を選択した場合は、仮名漢字
コードを表記に変換した情報がCRT61に出力される。音
声出力を選択した場合は、次のテキスト合成部62により
仮名漢字コード列の音声出力がなされる。仮名漢字コー
ド列は言語処理部621にて言語情報メモリ622を使つて、
構文・意味解析が実行される。さらに、韻律決定部623
にて強勢,抑揚などのイントネーシヨンやアクセントが
決定される。入力が既にイントネーシヨンやアクセント
情報を持つた仮名コード列の場合は、上記言語処理部62
1,言語情報メモリ、韻律決定部623は不要となる。次
に、強勢や抑揚情報を持つ仮名コード列を音声に変換す
る、いわゆるテキスト合成の音声合成部として、制御パ
ラメータ生成部624にて各仮名コードに対応した音素や
音節のスペクトルパラメータと有無・無声情報およびピ
ツチ情報などの音源パラメータが音源/スペクトルパラ
メータメモリ625から読み込まれ、音声波形合成部626に
て合成フイルタを通すことにより音声波形が合成され
る。合成された音声波形はデイジタル−アナログ変換器
(D/A)63を経由して、スピーカ64から音として出力さ
れる。 なお、第1図の本発明の一実施例において、文節生成
部5を省略して、直接キーワード認識部4で得られるキ
ーワード列から出力音声を合成する、いわゆる概念合成
による出力処理も考えられる。 〔発明の効果〕 本発明によれば、ユーザがシステムと自由に対話しな
がら文書を作成できるので、音声を入力手段として使う
メリツトを最大限に使い、かつ効率の良い文書作成がで
きる効果がある。
【図面の簡単な説明】 第1図は本発明の一実施例を示す文書作成装置のブロツ
ク図、第2図から第12図は第1図の各処理部の一実施例
を詳細に示すブロツク図である。 3……キーワード探索部、4……キーワード認識部、5
……文節生成部。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 矢島 俊一 東京都国分寺市東恋ケ窪1丁目280番地 株式会社日立製作所中央研究所内 (56)参考文献 特開 昭62−232700(JP,A) 特開 昭61−80359(JP,A) 特開 昭59−5298(JP,A) (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 - 9/18 G06F 3/16,15/20 JICSTファイル(JOIS)

Claims (1)

  1. (57)【特許請求の範囲】 1.入力された音声の特徴パタン及び韻律情報を抽出す
    る音声分析手段と、 上記入力音声からキーワードを抽出し、かつ上記韻律情
    報から上記入力音声の文構造を推定して出力する手段
    と、 上記抽出されたキーワードを認識する手段と、 上記認識されたキーワードと上記推定された文構造とに
    従い、付属語辞書を用いて付属語を推定し、上記推定さ
    れた付属語を上記認識されたキーワードに付加して、上
    記入力音声により表現された文章の候補を生成する手段
    と、 上記生成された文章の候補を出力し、該出力に対する選
    択または修正の指示入力に応じて最終的な文章を出力す
    る手段とを備えていることを特徴とする音声対話型文書
    作成装置。 2.上記出力手段は、ディスプレイ上に表示出力又は音
    声にて出力する手段であることを特徴とする特許請求の
    範囲第1項に記載の音声対話型文書作成装置。
JP62297567A 1987-11-27 1987-11-27 音声対話型文書作成装置 Expired - Fee Related JP2907828B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62297567A JP2907828B2 (ja) 1987-11-27 1987-11-27 音声対話型文書作成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62297567A JP2907828B2 (ja) 1987-11-27 1987-11-27 音声対話型文書作成装置

Publications (2)

Publication Number Publication Date
JPH01140369A JPH01140369A (ja) 1989-06-01
JP2907828B2 true JP2907828B2 (ja) 1999-06-21

Family

ID=17848220

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62297567A Expired - Fee Related JP2907828B2 (ja) 1987-11-27 1987-11-27 音声対話型文書作成装置

Country Status (1)

Country Link
JP (1) JP2907828B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5381211B2 (ja) * 2009-03-23 2014-01-08 トヨタ自動車株式会社 音声対話装置及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS595298A (ja) * 1982-06-30 1984-01-12 富士通株式会社 文節単位の音声認識方式
JPS6180359A (ja) * 1984-09-26 1986-04-23 Sharp Corp 翻訳装置
JPS62232700A (ja) * 1986-04-03 1987-10-13 工業技術院長 音声会話文理解装置

Also Published As

Publication number Publication date
JPH01140369A (ja) 1989-06-01

Similar Documents

Publication Publication Date Title
Wu et al. Voice conversion using duration-embedded bi-HMMs for expressive speech synthesis
JP4302788B2 (ja) 音声合成用の基本周波数テンプレートを収容する韻律データベース
US5911129A (en) Audio font used for capture and rendering
US8224645B2 (en) Method and system for preselection of suitable units for concatenative speech
CN108899009B (zh) 一种基于音素的中文语音合成系统
US6510410B1 (en) Method and apparatus for recognizing tone languages using pitch information
JP2826215B2 (ja) 合成音声生成方法及びテキスト音声合成装置
Kumar et al. Development of Indian language speech databases for large vocabulary speech recognition systems
WO2000058943A1 (fr) Systeme et procede de synthese de la parole
JP4829477B2 (ja) 声質変換装置および声質変換方法ならびに声質変換プログラム
JP2001215993A (ja) 対話処理装置および対話処理方法、並びに記録媒体
US6502073B1 (en) Low data transmission rate and intelligible speech communication
Shariah et al. Human computer interaction using isolated-words speech recognition technology
Fu et al. A survey on Chinese speech recognition
JPH0887297A (ja) 音声合成システム
JP2907828B2 (ja) 音声対話型文書作成装置
CN115359775A (zh) 一种端到端的音色及情感迁移的中文语音克隆方法
JP3576066B2 (ja) 音声合成システム、および音声合成方法
JP2753255B2 (ja) 音声による対話型情報検索装置
Tunalı A speaker dependent, large vocabulary, isolated word speech recognition system for turkish
EP3718107B1 (en) Speech signal processing and evaluation
Takaki et al. Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012
JP2021148942A (ja) 声質変換システムおよび声質変換方法
Thalengala et al. Effect of time-domain windowing on isolated speech recognition system performance
Mallik et al. Speech to text conversion for visually impaired person using µ law companding

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees