JPS60196869A - 音声入力式日本語文書処理装置 - Google Patents

音声入力式日本語文書処理装置

Info

Publication number
JPS60196869A
JPS60196869A JP59053840A JP5384084A JPS60196869A JP S60196869 A JPS60196869 A JP S60196869A JP 59053840 A JP59053840 A JP 59053840A JP 5384084 A JP5384084 A JP 5384084A JP S60196869 A JPS60196869 A JP S60196869A
Authority
JP
Japan
Prior art keywords
stored
memory
candidate
affix
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59053840A
Other languages
English (en)
Inventor
Takeshi Yoshii
健 吉井
Toru Ueda
徹 上田
Fumio Togawa
外川 文雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Basic Technology Research Association Corp
Original Assignee
Computer Basic Technology Research Association Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Basic Technology Research Association Corp filed Critical Computer Basic Technology Research Association Corp
Priority to JP59053840A priority Critical patent/JPS60196869A/ja
Publication of JPS60196869A publication Critical patent/JPS60196869A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〈発明の技術分野〉 本発明は文節単位に発声された音声を音節単位に認識し
、この認識された音節候補の組合せにより複数の文節候
補列を作成し、辞書照合を含む文法処理を行なって文節
単位の認識結果を出力する音声入力式日本語文書処理装
置の改良に関するものであり、更に詳細には認識結果の
複数の候補の出力順序を制御するようにした音声入カ式
日本語文書処理装置に関するものである。
〈発明の技術的背景とその問題点〉 従来の音声入力式日本語文書処理装置において、例えば
入力音声を音節単位に認識し、この認識された音節候補
の組合せにより複数の文節候補列を作成し、辞書照合を
含む文法処理を行なって文節単位の認識結果を出力して
いる。そしてこの時文節の長さと各音節毎の候補数を組
合せた数の文節候補列が作成され、また辞書照合の結果
も複数の認識結果が出力される。
この場合、音声認識結果の確からしさの順序で複数の認
識結果を順次出力している。
しかし、従来のこのような方法において、単音節の認識
結果が砥とんど誤まりの無い場合、あるいは対象とする
語霊が少ない場合には特に開題は生じないが、現在の音
声認識の技術レベルでは充分に区切った音節でも識別し
にくい音節があシ、また連続的に発声し、た音声では調
音結合等の影響によシ識別率が更に低下する。
また辞書に収納された語霊が多くなれば思ってもみない
語が最初に認識結果として出力されることがある。
本出願人は、このような従来の問題点を除去した認識結
果の出力順序を決定する方法を先に特願昭58−585
13号[日本語音声入力装置」として提案した。
この方法は認識結果の複数の候補を音声認識結果の確か
らしさを示す確度情報と、音声認識結果価値情報によっ
て評価して認識結果の出力順序を決定するようにしたも
のである。
しかし、本出願人が先に提案した方法によっても、認識
結果のなかの無意味な候補列が上位に出力される場合が
あることが判明した。
〈発明の目的〉 本発明は上記の点に鑑みて成されたものであり、認識結
果の出力順序を決定する新規な方法を採用した音声入力
式日本語文書処理装置を提供することを目的とし、この
目的を達成するため、本発明の音声入力式日本語文書処
理装置は接辞語句及びこの接辞語句に接続し得る自立語
情報のチーグルを記憶した記憶手段と、この記憶手段に
記憶されたテーブルを参照して認識結果の複数の候補の
出力を制御する制御手段とを備えるように構成されてい
る。また、本発明の実施例によれば、上記制御手段は上
記記憶手段に記憶されたテープIしを参照して認識結果
の複数の候補のうちの無意味な候補列を削除せしめるよ
うに構成されておυ、更に上記制御手段は認識結果の被
数の候補を音声認識結果の確からしさを示す確度情報と
、音声認識結果の確からしさ以外の自立語の長さ、頻度
を含む条件にもとすく文法評価値情報と、記憶手段に記
憶された接辞語句及びこの接辞語句に接続し得る自立語
情報のテーブルとを参照することにより、重み付けを行
なって認識結果の出力順序を決定せしめるように成され
ている。
〈発明の実施例〉 以下、本発明を一実施例を挙げて詳細に説明する。
る。
第1図は本発明の音声入力式日本語文書処理装置の一実
施例の構成を示すブロック図である。
第1図において、1は音声入力をピンクアッグするマイ
クロホンであり、この々イクロホン1によシ検出された
音声は単音節認識部2に入力される。この単音節認識部
2は従来公知のものであり、マイクロホン1を介して入
力された文節単位の音声が音節単位に区分されて単音節
毎の特徴抽出が行なわれる。一方メモリ3には各単音節
毎の標準パターンが記憶されており、単音節認識部2に
おいて入力音声の特徴パターンと標準パターンとのマツ
チング計算処理が行なわれ、このマツチング計算処理の
結果、最も近似したものが第1候補として、また順次近
似したものが次候補として選出され、その結果が近似度
(確からしさ)を示す距離差情報と共にメモリ4に音節
ラティスとして記憶される。
上記単音節認識部2において認識され、音節ラテ、Cヌ
としてメモリ4に記憶された内容は候補列作成部5に入
力されて近似度(確からしさ)を示す距離差情報を用い
て確度の高い順に文節候補(かな文字列)が作成されて
文節候補メモリ6に記憶される。なおメモリ6において
領域6aは文節候補の確からしさを示す確度情報の記憶
領域、領域6bは後述する評価内容を記憶する評価レジ
スタ領域である。
上記候補列作成部5において作成され、メモリ6内に記
憶された複数の候補列は順次文節分析部7に入力されて
文法的な分析が行なわれると共に分析に必要な文法情報
及び見出し語辞書、接辞語辞書等を含む辞書メモリ8の
内容と照合され、一致したもρが認識結果メモリ9に文
節(単語)の漢字候補情報として記憶される。更に文節
分析部7は後述するようにメモリ9に記憶される文節(
漢字)候補の構成要素を分析して文法評価値を算出し、
仮名漢字変換処理における同音語の最高評価値を得た漢
字候補が認識結果メモリ9に記憶され、またメモリエリ
ア9aにその候補に対する文法評価値が記憶される。
また上記メモリ領域6aに記憶されている確度情報Yと
メモリエリア9aに記憶された文法評価値情報Xにもと
すいて算出された各候補の総合評価値Zがメモリエリア
9bに記憶され、この総合評価値Zを用いて文節候補の
ソートが行なかれて、認識結果の出力順序が決定される
ように構成されている。またメモリエリア9c及び9d
にはそれぞれ後述するように接辞(接頭語、接尾語)の
番号及び自立語の番号が記憶され、更にメモリエリア9
eには本発明にしたがって判断された接辞と自立語の接
続の適否の判断結果が記憶されるように構成されている
なお10は評価点算出のために用いられるバッファであ
シ、メモリ領域A、B、C,ST、SB。
Xを有している。
また、llaは各接辞語に接続可能な自立語の用例を記
憶した語句テーブルメモリ、llbは参照テーブルメモ
リである。
また12は認識結果等を表示する表示装置、13はかな
キー、ファンクションキー等を有する入力装置、14は
上記各装置を制御するコントローラ(CPU)である。
上記参照テーブルメモ!Jllbは第2図に示す如く構
成されておシ、各接辞語「別」、「補」等ごとに、それ
ぞれフラグAI、接辞連番A2、接辞読みA3、自立連
番A4及びアドレスA5の情報ケ組として記憶されてお
シ、上記語句テーブルメモ!Jllaは第3図に示すよ
うに構成されており、参照チーグルメモリllbの記憶
内容によって対応付けられた所定の接辞語に対するアド
レスA5を開始アドレスとして所定の接辞語に接続可能
な自立語の用例が順次自立語番号で記憶されている。
上記参照テープzlzllbは本実施例によれば1項目
に付いて10バイト構成と々っでおシ、実際の接辞の種
類は接頭語と接尾語を合わせて597個であるが、後述
するように検索時間の短縮を図るために副項目を設けて
いるため、本実施例では約10にバイトとなっている。
また、語句テープ/Izllaについては1自立語番号
を2バイトで表記しているため(2バイト×用例の総数
)の容量になシ約70にバイトとなっている。
また、本実施例においては、自立語番号の一致を検知す
るためのル−プ制御を行なうため、次のようになってい
る。即ち、本実施例において、最も適切な検索時間とな
るようにl )V−プに含まれる自立語番号の個数を6
4個と算定し、予め1つの接辞に対して64個以上の用
例が含まれる場合は64個毎の語句テーブルの開始アド
レスA5とそのグループに含まれる最も大きい自立語番
号A4が参照テーブルメモリ11bに書かれることにな
シ、またこの時フラグA1も<01>HEXとするよう
に成しているため、例えば接辞「別」の場合、まず接辞
番号とその読みから接尾語「別」を見つけ出すことが出
来るが、この時フラグA1が“0”でないことから、次
にも同じ接辞の項目が続いであることが分かる。したが
−3て接続可能か否かを調べる自立語番号と参照テーブ
ルメモIJ 11 bの自立語番号A4とを比較して、
両者の大小の関係から、前者の方が小さい場合には、開
始アドレスを<ID88)HEXとし、前者の方が大き
い場合には、更に次の項を探して開始アドレスを〈ID
C8>HEXと決定して語句テーフ:ルメモリ11aの
検索が開始される。
また、もし探し出そうとする自立語番号が〈CC68’
>HEXよりも大きい場合には、この自立語は語句テー
ブルメモリ11aには含まれていないと判断することが
できる。
このようにして、“′フラグA1゛及び“自立語番号A
4°゛の内容をチェックすることによって、検索時間の
短縮が図れるように構成されている。
尚、この64個というグルーピングの数は、装置の処理
速度等によって適宜増減させて良いことは言うまでもな
い。
次に上記の如く構成された装置の動作を第4図に示す1
文節の処理フローに従って説明する。
文節単位に発声された音声はマイクロホン1によって検
出されて単音節認識部2により、音響分析によって単音
節単位に認識され(no”n3)、その認識結果が音節
ラテ、Cスメモリ4に入力記憶される。
例えば入力音声「/こ〃<〃み〃ん〃を/」(「国民を
」)に対する単音節認識結果として第1表に示すような
音節ラティスが形成される。
ナオ、上記第1表において音節ラティスの0内に示した
数字は第1位の認識結果゛を1.0とした時の2位以下
の確度を表わしている。
上記のように音節ラティスには音節番号と音節確度(確
からしさ)情報が書かれることになる。
ここで音節の確からしさを表わす音節確度は次のように
して算出される。
即ち、単音節認識部2で入力音節の特徴パターンとメモ
リ3に記憶されている複数の標準パターンとの間でパタ
ーンマツチングが行なわれ、パターンマツチングの結果
として、各標準パターンとのマツチング距離を得る。こ
のマツチング距離の小さい順に並べて、上位数個を音節
候補とする。
第1表に示した音節確度は、第1位のマツチング距離で
各位のマツチング距離を除して正規化したものである。
上記単音節認識部2において認識され、音節ラティスと
してメモリ4に記憶された音節単位の各候補は候補列作
成部5に入力される。
候補列作成部5は音節ラテ、イヌメモリ4に記憶された
音節単位の認識結果を用いて、最初に上記メモリ4に記
憶された1位の認識結果ばかシを並べて候補列を作成し
て文節候補メモリ6に記憶し、次に順次2位以下の認識
結果を組合せて確度の総和(候補列の確度)の小さい順
に候補列(文節候補)を作成してメモリ6に記憶する。
またこの時各文節候補に対する確度情報Yがメモリエリ
ア6aに記憶される(n4)。上記第1表に示した例で
は複数の候補列が第2表の如く作成されてメモリ6に記
憶される。
表2表 次にメモリ6に記憶された候補列は順次文節分析部7に
入力され、文節の分析が行なわれる(n5)。
即ち文節分析部7では入力される候補列を辞書メモリ8
の内容との照合を含む文法分析を次のように実行する。
候補列→(接頭語)十自立語+(接尾語)+(活用語尾
)+(付属語列) ただしくニ)内の要素は無くても良い。
ステップn5において行なわれる文節の文法分析処理フ
ローは第5図に詳細に示されておシ、文節分析部7はま
ず入力された候補列と辞書メモリ8の記憶内容との照合
を行々って仮名漢字変換処理を実行する(n20.n2
1 )。この時変換できなかった場合には入力された候
補列が文節として不可能なかな配列と判定して、メモリ
エリア6bのその候補列に対応した位置(評価レジスタ
)に「0」を入れて、文節分析結果(評価)「×」の決
定を行う(ステップn22,23.24 )。
一方、仮名漢字変換処理動作(n21 )の結果、変換
が可能であった場合には、評価レジスタエリア6bの対
応位置(評価レジスタ)を「1」にセットして(n25
)、照合の結果一致したことを即ち、本実施例において
各文節候補についてn20〜n25の動作を実行するこ
とによシ上記第2表の評価欄に示したように「○」を付
加した6個の候補列が文節として可能であることが分析
される。
また、本実施例においては文節として可能な候補列につ
いてステップn26以後において文節の構成要素におい
て重み付けを行なって出力順序付けを行なっているがそ
の一例を以下に示す。
文節として可能な候補列に対する文法評価値は上記した
文節の要素の接頭語、自立語、接尾語の各々に対して次
の3点において点数を与え、各要素ごとに重みをかけて
加算した点数の合計として算出される。
■ 語長 ■ 頻度 ■ 直前の数百文節での使用の有無 次に各項目に対する文法評価値の算出動作を説明する。
(+) 自立語に対する評価値(n26〜n31)自立
語長は、その自立語の活用語尾の長さも含めた長さとす
る。例えば1歩いた」では、「歩」が自立語の語幹であ
シ、「い」が活用語尾であシ、「た」が付属語となる。
従って自立語長は3と々シ、この自立語の長さはAレジ
スタに記憶される(n26)。
自立語に対する頻度情報は3ランクに分け、少ないもの
から0.1.2の値が与えられて例えば辞書メモリ8に
記憶されておシ、この辞書メモリ8より所望の頻度情報
が取出されてBレジスタに記憶される(n27)。
次にステップn28に移行して直前の数十文節で使用さ
れているか否かが判定され、使用されていれば「1」、
使用されていなければrOJがCレジスタに記憶される
(n29.30)。
次にステップn31に移行して自立語の評価値Jが次式 %式% に従って算出され、その結果がJレジスタに記憶される
なお、自立語の場合には、−成用いたものを再度用いる
確率が高いため、使用の有無の情報Cに重みをかけてい
る。
(11)接頭語、接尾語に対する評価値(n32〜n4
7)接頭語はその文字数(拗音は除く)を2倍したもの
を用いる。ただし、文字数が0(接頭語がない時)の時
には「4」を与える(n33 )。
また頻度は2ランクに分けられており、少ないものをr
OJ、多いものをrlJとしている。
更に使用の有無は無い時には「0」、有の時には「1」
を与えている。
接頭語長はAレジスタに記憶され(n34)、頻度情報
はBレジスタに記憶され(n35)、使用の有無情報は
Cレジスタに記憶され(n37゜38)、その後ステッ
プn39に移行して接頭語の評価値STが次式 5T=A+B+2C に従って計算され、その結果がSTレジスタに記憶され
る。
接尾語の場合には接頭語と同様の動作がステップn40
=n47において実行され、その結果がSBレジスタに
記憶される。
次にステップn48に移行して1文節全体の評価値Xが
次式 %式% に従って計算され、その結果がXレジスタに記憶される
次にステップn49に移行してXレジスタの値が評価値
レジスタ(メモリエリア9a)の値よシ大きいか否かが
判定され、Xレジスタの値が評価値レジスタの値より大
きい場合には評価値レジスタ(メモリエリア9a)にX
レジスタの内容を記憶すると共に、ステップn21.n
22において変換された漢字候補をその文法評価値と共
にメモリLK記憶する(n50)。
一方n49においてXレジスタの値が評価値レジスタの
値よシ大きくない場合にはステップn50を飛び越して
ステップn51に移行する。
ステップn51においては次の同音語の候補があるか否
かが判定され、同音語の候補があればステップn26以
降に戻って新たな同音語候補に対する文法評価値の計算
が行なわれる。
また同音語の候補がなければステップn52にに移行し
て、上記の文節の分析の結果、接辞語があったか否かを
判断し、接辞語があった場合にはその接辞語の番号をメ
モリエリア9Cに記憶すると共に、その接辞語に接続し
ている自立語の番号をメモリエリア9dに記憶しくステ
ップn53)、1候補列に対する文節の文法評価を終了
する(n54)。
またステップn52において、接辞語がないと判断した
場合にはステップn54に移行して1候補列に対する文
節の文法評価を終了する(n7)。
このような動作によシ1候補列に対する漢字候補がその
文法評価値、接辞の番号及び自立語の番号と共に認識結
果メモリ9に記憶され、また1候補列に対して同音語(
複数の漢字候補)が存在する場合には評価点の最も大き
い漢字候補がメモリ9に記憶されることにな7る。
第2表に示した例においては 「ごふにんは]→「ご赴任補」 「ごふにんを」−「ご赴任を」 「ごふみんは」→「ご不眠補」 「ごふみんを」→「ご不眠を」 「ごくみんは」→「ご区民補」 「こくみんは」→「国民補j 「ごくみんを」→「ご区民を」 「こくみんを」→「国民を」 の漢字候補が得られる。また接頭語「ご」に関しては頻
度が高いため 5T=2+1+O=3 とし、接尾語「補」に関しては頻度が低いため5B=2
+O+O=2 とし、「赴任」は頻度1.「国民」は頻度2゜「不眠」
及び1区民」は頻度Oとした場合、各文節を評価すると
、 「ご赴任補」:(接頭)(自立語・3文字)(接尾) X=3+16X(3+1+O)+2=69「ご赴任を」
:(接頭)(自立語・・・3文字)(付属語) X=3+16X(3+1十〇 )+4=71「ご不眠補
」:(接頭)(自立語・・・3文字)(接尾) X=3+16X(3+0+O)+2=53「ご不眠を」
=(接頭)(自立語・・・3文字)(付属語) X=3+16X(3十〇+0)+4=55「ご区民補」
:(接頭)(自立語・・3文字)(接尾) X=3+16X(3+0+O)+2=53「国民補」=
(自立語・・4文字)(接尾)X=4+16X(4+2
+0)+:2−102「ご区民を」:(接頭)(自立語
・・・3文字)(付属語) X=3+16X(3+0+O)+4=55「国民ヲ」=
(自立語・・・4文字)(イ」成語)X=4+16X(
4+2+0 )+4=104とな!ll「国民を」が最
高の文法評価値となる。
次にステップn8に移行して、本発明の特徴的な処理で
ある接辞語句による評価の処理が実行される。
ステップn8において行なわれる接辞語句による評価の
処理フローの詳細が第6図に示されており、予め用意さ
れ、メモ!Jlla、llbに記憶されている2種類の
「語句テーフ諏し」及び「参照テーブル」を用いて、候
補列内の各接辞に対してその用例が含まれているか否か
が判定される。このとき、上記した辞書との照合及び文
法分析の処理時にメモリエリア9c、9dK書込まれた
候補列の接辞の番号及び自立語の番号が用いられる。
具体的には、まずメモリエリア9c及び9dから所定の
候補列に対する接辞の番号及び自立語の番号を読み出し
くステップn61)、メモ’Jllbの参照チーグルの
中から、今読み出した接辞番号(文節分析部で書込まれ
た接辞番号及び接辞の読み)を用いて、該当する接辞の
項(例えば接尾語「補」の項)を検索しく n 6 ’
2 + n 63 ) 、該当する接辞(例えば接尾語
「補」)が接続し得る自立語の用例が始まる語句テープ
/1zllaの開始アドレスA5を読み出す(ステップ
n67、この場合は(IDDB>HEX)。
また、この時の自立連番A4の内容とエリア9dより読
出した自立語番号とを比較して(n64)、9dの内容
がA4の内容よシ大きい場合には、ステップn65に移
行してA1の内容が0゛°であるか否かを判定し、0゛
°でなければ参照チーグル11bの次の項を参照するよ
うにして(n 66)、n64以後の動作を繰返し、A
1が“O11であれば該当する接辞に対してエリア9d
に記憶された番号の自立語が用例として含まれていない
と判断してメモリエリア9eに“?0°″を設定する(
n72)。
一方メモリllbのエリアA5より開始アドレスを読み
出した後はステップn68に移行して語句テーブルll
aを参照し、語句テープ/L’llaの中のアドレスA
5(今の場合は< I DDB >HEX )から記さ
れている各自立語番号と先の文節候補の自立語番号であ
るエリア9dの内容との一致を検索しくn69.n70
)、一致した場合にはメモリエリア9eに“1”を設定
しくステップn71)、一致しない場合にはメモリエリ
ア9eに“0゛を設定して一連の接辞語句による評価処
理を終了する。
上記の一連の処理において、メモリエリア9eに“0°
゛の設定された文節候補は接続し得ない接辞語と自立語
の対であると判断して、以後の処理において文節候補か
ら除外される。
上記した接尾語「補」に対しては語句テーブル11aの
自立語番号から「検事」、「司書」。
「主事」、「書記」及び「判事」の5つの用例があるこ
とが分かるが、上記した例で候補に上がった「赴任」、
「不眠」、「区民」及び「国民」に該当する自立語番号
が含まれていないので、これらの自立語には接尾語「補
」が接続しないものとして、これらの文節候補列の出力
が除外されることになる。
次にステップn9(第4図)においてエリア9eに1゛
°の設定された各文節認識結果の総合評価値が の式に従って算出され、その結果がメモリエリア9bに
記憶される。
このステップにおいて例えば「国民を」の総合評価値が となり、最高の総合評価値となる。
従ってステップn10(第4図)において文節認識結果
をソートすることによりメモリ9の記憶内容は第3表の
Hの如くなる。
このような一連の動作にょシ漢字候補「区民を」が第1
位の認識候補となシステップnlOに移行して、その第
1位の認識候補「国民を」が最初に出力されることにな
る。
なお、第3表において■の欄は音響分析から得られる確
度(確からしさ)情報によってソートした場合のメモリ
9の記憶内容を示している。
上記の第3表に示した例からも明らかなように入力音声
に対応した正しい文節「国民を」は■では第8位である
のに対し、本発明にょる■では第1位に出力され、しか
も文節候補の数が限定されるようになシ、本発明が最も
良い結果になっていることが判る。
以上のような処理手順により、音声認識の確度に従った
認識結果の出力順、及び文法分析による文法評価値に従
った認識結果の出力順に比べて、認識結果の出力の順序
をより妥当なものとすることが可能となる。
また、接辞に対する自立語の情報は計算機等による自動
抽出が可能であるため、大語いになる程、本発明は有効
である。
なお上記実施例においては接辞語句による評価処理にお
いて接辞語と接続し得ない自立語との対の文節候補を出
力しないように成しているが、本発明はこれに限定され
るものではなく、例えば接辞語と自立語の対の用例があ
ると判断された候補については出力順序がより上位にな
るようにソートすると共に接辞語と自立語の対の用例が
ないと判断された候補については出力順序がより下位に
なるようにソートする等の種々の変形が可能である。
〈発明の効果〉 以上述べたように、本発明によれば接辞語句及びこの接
辞語句に接続し得る自立語情報のテーブルを記憶した記
憶手段と、この記憶手段に記憶されたテーブルを参照し
て認識結果の複数の候補の出力を制御する制御手段とを
備えるように構成されているため、接辞に対してどのよ
うな自立語が接続されるかという情報によって認識結果
の出力の順序をより妥当なものとすることが出来、認識
結果の正解率を向上させると共に、候補選択が容易とな
る。
【図面の簡単な説明】
第1図は本発明の一実施例装置の構成を示すブロック図
、第2図は参照テーブルメモリの構成例を示す図、第3
図は語句テーブルメモリの構成例を示す図、第4図は1
文節の処理フローを示す図、第5図は1候補列(文節)
に対する文節の分析処理フローを示す図、第6図は本発
明による接辞語句による評価処理フローを示す図である
。 2・・・単音節認識部、 3・・標準パターンメモリ、
4・−・音節ラティスメモリ、5・・・候補列作成部、
6・・・文節候補メモリ、7・・・文節分析部、8・・
・辞書メモリ、9・・・認識結果メモリ、10・・・文
法評価値算出用バッフ1メモリ、6a・・・確度情報記
憶メモリ、 9a・・・文法評価値記憶エリア、 9b・・・総合評価値記憶エリア、 9c・接辞語句番号記憶エリア、 9d・・・自立語番号記憶エリア、 9e・・・接続適否判定結果記憶エリア、11a・・・
語句テーブルエリア、 11b・・・参照テーブルエリア。

Claims (1)

  1. 【特許請求の範囲】 1 文節単位に発声された音声を音節単位に認識し、該
    認識された音節候補の組合せによシ複数の文節候補列を
    作成し、辞書照合を含む文法処理を行なって文節単位の
    認識結果を出力する音声入力式日本語文書処理装置にお
    いて、接辞語句及び該接辞語句に接続し得る自立語情報
    のテーブルを記憶した記憶手段と、該記憶手段に記憶さ
    れたチーグルを参照して上記認識結果の複数の候補の出
    力を制御する制御手段と、 を備えることを特徴とする音声入力式日本語文書処理装
    置。 2 上記制御手段は上記記憶手段に記憶されたテーブル
    を参照して認識結果の複数の候補のうちの無意味な候補
    列を削除せしめるように構成されたことを特徴とする特
    許請求の範囲第1項記載の音声入力式日本語文書処理装
    置。 3 上記制御手段は認識結果の複数の候補を音声認識結
    果の確からしさを示す確度情報と、音声認識結果の確か
    らしさ以外の自立語の長さ、頻度を含む条件にもとすく
    文法評価値情報と、上記記憶手段に記憶された接辞語句
    及び該接辞語句に接続し得る自立語情報のテーブルとを
    参照することによシ、重み付けを行なって認識結果の出
    力順序を決定せしめるように成したことを特徴とする特
    許請求の範囲第1項記載の音声入力式日本語文書処理装
    置。
JP59053840A 1984-03-19 1984-03-19 音声入力式日本語文書処理装置 Pending JPS60196869A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59053840A JPS60196869A (ja) 1984-03-19 1984-03-19 音声入力式日本語文書処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59053840A JPS60196869A (ja) 1984-03-19 1984-03-19 音声入力式日本語文書処理装置

Publications (1)

Publication Number Publication Date
JPS60196869A true JPS60196869A (ja) 1985-10-05

Family

ID=12953976

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59053840A Pending JPS60196869A (ja) 1984-03-19 1984-03-19 音声入力式日本語文書処理装置

Country Status (1)

Country Link
JP (1) JPS60196869A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02224058A (ja) * 1988-11-15 1990-09-06 Ricoh Co Ltd 自然言語処理システム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57109997A (en) * 1980-12-26 1982-07-08 Tokyo Shibaura Electric Co Word information input device
JPS5837698A (ja) * 1981-08-29 1983-03-04 沖電気工業株式会社 音声入力和文タイプライタにおける変換方法
JPS5852738A (ja) * 1981-09-25 1983-03-29 Oki Electric Ind Co Ltd 音声入力和文タイプライタにおける変換方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57109997A (en) * 1980-12-26 1982-07-08 Tokyo Shibaura Electric Co Word information input device
JPS5837698A (ja) * 1981-08-29 1983-03-04 沖電気工業株式会社 音声入力和文タイプライタにおける変換方法
JPS5852738A (ja) * 1981-09-25 1983-03-29 Oki Electric Ind Co Ltd 音声入力和文タイプライタにおける変換方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02224058A (ja) * 1988-11-15 1990-09-06 Ricoh Co Ltd 自然言語処理システム

Similar Documents

Publication Publication Date Title
US6738741B2 (en) Segmentation technique increasing the active vocabulary of speech recognizers
Bahl et al. Decision trees for phonological rules in continuous speech
Lin et al. A new framework for recognition of Mandarin syllables with tones using sub-syllabic units
CN101785050B (zh) 语音识别用对照规则学习系统以及语音识别用对照规则学习方法
JPS61177493A (ja) 音声認識方法
El Méliani et al. Accurate keyword spotting using strictly lexical fillers
JP2002278579A (ja) 音声データ検索装置
JPS60196869A (ja) 音声入力式日本語文書処理装置
JP2009271117A (ja) 音声検索装置および音声検索方法
JP3950957B2 (ja) 言語処理装置および方法
JPS59180629A (ja) 日本語音声入力装置
JPS59116837A (ja) 音声入力式日本語文書処理装置
JP2002082690A (ja) 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体
JPS60175141A (ja) 日本語音声入力装置
JP4024614B2 (ja) 言語モデル生成方法、装置およびプログラム、テキスト分析装置およびプログラム
JP4797307B2 (ja) 音声認識装置及び音声認識方法
JP2979912B2 (ja) 音声認識装置
JP2001051992A (ja) 日本語統計データ作成装置および方法、並びにディクテーションシステム
JP2997151B2 (ja) 漢字変換装置
JPH0627985A (ja) 音声認識方法
EP0982712A2 (en) Segmentation technique increasing the active vocabulary of speech recognizers
JPS60205594A (ja) 認識結果表示方式
JPH11344991A (ja) 音声認識装置および記憶媒体
JPS60147797A (ja) 音声認識装置
Zhao et al. A novel space-compressed Chinese word bigram based on bi-character co-articulation frequency