JPH07287594A - 音声認識・言語処理装置 - Google Patents

音声認識・言語処理装置

Info

Publication number
JPH07287594A
JPH07287594A JP6081285A JP8128594A JPH07287594A JP H07287594 A JPH07287594 A JP H07287594A JP 6081285 A JP6081285 A JP 6081285A JP 8128594 A JP8128594 A JP 8128594A JP H07287594 A JPH07287594 A JP H07287594A
Authority
JP
Japan
Prior art keywords
language
recognition
voice
symbol string
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6081285A
Other languages
English (en)
Inventor
Nobuo Hataoka
信夫 畑岡
Warensutain Furanku
フランク・ワレンスタイン
Akio Amano
明雄 天野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP6081285A priority Critical patent/JPH07287594A/ja
Publication of JPH07287594A publication Critical patent/JPH07287594A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 本発明の目的は、音声認識、言語処理装置に
おいて、言語情報に基づいて入力記号列を処理する、い
わゆるパージング処理の手順を表現したメモリテーブル
(LRテーブル)の効率的な構成と、パージング処理手
順の効率的な方式を提供し、メモリ容量の削減を実現
し、さらに実時間処理を可能し、現状の計算機能力の条
件下でも、実時間処理が可能な音声認識、言語処理装置
を実現することにある。 【構成】 少なくとも音声を入力する手段と、入力され
た音声を分析する手段と、分析して得られた音声の特徴
量を基に、既に蓄えられている標準的な音声と照合し、
入力音声を認識する手段と、記号列に関する言語情報に
基づいて言語として存在する記号系列へ探索、変換する
手段を有する音声・言語認識装置において、効率的に圧
縮されたLRテーブルメモリと、LRパージング処理の
際の候補系列の数を適応的に制御するコントロール部を
備える。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声認識、言語処理装
置において、言語情報に基づいて入力記号列を処理する
(以下、パージング処理)手順を表現したメモリテーブ
ルの効率的な構成と、パージング処理の手順の効率的な
方式に関する。
【0002】
【従来の技術】音声認識と言語処理とを組み合わせる手
法に関しては、数多く提案されている。例えば、隠れマ
ルコフモデル(HMM:Hidden Markov Models)を用
いた音声認識と、LRパーザとを組み合わせたHMMー
LRパーザは、文脈に依存しない文法(CFG:Contex
t Free Grammar)を利用できることや、処理が入力記
号列の順序に従っているので実時間処理が可能となる等
の理由から、将来性の高い技術となっている。
【0003】
【発明が解決しようとする課題】しかしながら、未だ言
語情報に基づいて処理を記述したテーブルのメモリ容量
が膨大になることや、パージング時間が膨大になること
が問題となっている。
【0004】
【課題を解決するための手段】本発明では、上記の問題
に対処して、記憶メモリ容量を大幅に削減することを第
一の目的とし、処理量を削減し、実時間処理を可能とす
る手段を提供することを第二の目的としている。第一の
目的を実現するために、記憶メモリ容量が膨大であった
LRパージングテーブルの不要なメモリを削除する効率
的な構成方式を提案し、第二の目的を実現するために、
音韻・音節候補列探索するパージング処理の際の探索幅
を適応的に制御する方式を提案している。
【0005】
【作用】本発明によるLRパージングテーブルと、適応
的な制御パージング処理を使用すれば、現状の計算機能
力の条件下でも、現語彙数を増加させて、本来必要な規
模の言語処理の文法とパージング処理を可能とするよう
に作用する。
【0006】
【実施例】以下、実施例を詳細に説明する。図1は、本
発明による音声認識、言語処理装置の全体の構成を示し
た図である。音声認識部103は、隠れマルコフモデル
(HMM)基づいた認識方式となっており、マイクロフ
ォン102から入力された音声101を、例えば音節記
号列に変換する。この際、標準音声として既に分析・抽
出され、HMMパラメータファイル104に蓄えられて
いるHMMパラメータを使って、入力音声の認識が実行
される。音声認識部103からの認識結果は、認識スコ
ア105として出力され、インタフェース106を介し
て、HMMーLRパーザ部109に入力される。この
際、認識スコア105と、計算の中間結果は音響認識ス
コアテーブル107に格納される。音響認識スコアを基
に、予想される音韻系列が確度の高い順序に従い、予想
候補108としてHMMーLRパーザ部109に入力さ
れる。HMMーLRパーザ部109では、パージングの
処理手順を記述したLRテーブル110と、言語情報を
記述した文法ファイル111とを用いて、言語的に存在
する記号列を探索、変換し、上位N候補112が出力さ
れ、認識結果が得られることになる。この認識結果を基
にして、応用プログラム113にて各種の応用に従った
応答・出力が、例えば端末114などに表示されること
になる。
【0007】図2は、図1のHMMーLRパーザ109
の詳細な処理に関する図であり、一般的なHMMーLR
パーザの一モデルを説明した図である。LRパーザは、
入力音節記号列202から、LRパージングプログラム
201に基づいて、言語として望ましい音節記号列を探
索する機能を持つ。この際、状態を記述したスタック2
04と、LRパージングテーブル203とを用いて、枝
分れを考慮し、かつ探索効率を上げたスタックのプッシ
ュ・ダウン処理により、尤もらしい音節記号列205を
探索し、それを出力する。LRパージングテーブル20
3は、アクションテーブルとゴーツテーブルの2つから
構成されている。アクションテーブルとゴーツテーブル
はどちらも、日本語の音節列に関する確からしさに基づ
いて記述されている。凡例に示すように、入力音節記号
列202は、入力シンボル aiにて表現されており、出
力は名詞や動詞など、文章の構成要素を加味した結果の
音節系列が求められる。
【0008】図3は、LRパージングテーブル203の
一実施例と実行例とを示している。処理は、スタック内
の状態(ステート)のシフト(移動)と、リドュース
(削除)、ゴーツ(飛び越し)、及びアクセプト(受
理)等の手順にて、音節記号列の連鎖の枝分れ関係を各
状態(ステート)に当てはめて、あらゆる音節記号連鎖
の可能性を、スタックのプッシュ・ダウンを効率的に制
御して、入力記号列から言語として尤もらしい音節記号
系列を抽出する。この結果、単なる記号列であった入力
を、言語の形態素(例えば、名詞、動詞等)、及び文構
造(主語、述語等)へと表現した情報へ変換することが
可能となる。
【0009】図4は、LRパージングテーブル203の
表現の一実施例を示す図である。図4(b)のアクショ
ンテーブルの例でわかるように、通常アクションテーブ
ルは情報が埋まっていない多数の空白部を有している。
本発明は、この冗長なメモリ構成を解決して、効率的な
LRテーブルの構成を提案することを主眼としている。
【0010】図5は、本発明のひとつである、LRテー
ブルの新しい構成方法を示している。本手法は、次に示
す2つの特徴を持つ。ひとつは、シフト(移動)処理
を、記号列の順番と、シフト先のスタック状態番号とを
ひとつのセットとして表現する方式である。2番目の特
徴は、LRテーブルにシフト(移動)などの処理と混在
していたリドュース(削減)処理を、別のテーブルへ括
りだしたことである。これは、図3と図4でも明らかな
ように、LRテーブルでは、リドュース(削減)処理は
必ず同じ内容が、同じ状態番号に存在しており、それを
状態番号に依存してひとつに括りだすことが可能となっ
ている。本発明を、実際に実現して、メモリ削減の規模
を算出した結果、従来のLRテーブルメモリ規模を99
%削減することができた。
【0011】図6は、第2の発明に関する図であり、L
Rパージングの一実施例を示している。入力記号列は
「koreokure」であり、順次LRテーブルを用
いて、音節記号列の連鎖を探索(パージング)した結
果、最終的には2つの候補が求まっていることを示して
いる。2つの候補は、(1)「これ おくれ。」、(2)「こ
れを くれ。」である。これらは、どちらも日本語とし
て可能な表現である。第6図でもわかるように、正解を
落とさないように、通常パージングは複数の枝分れした
候補の可能性を広く探索する必要がある。どのくらいの
探索幅(以下、探索ビーム幅)にするかは、処理時間と
性能とのトレードオフとなっている。
【0012】図7は、本発明の適応的な探索ビーム幅の
制御を具体的に示す図である。通常は、図7(a)に示
すように、一様な探索ビーム幅になっている。ここで探
索ビーム幅とは、各ステップにおいて許容する枝分れの
数を示している。一様な探索ビーム幅は現実のパージン
グ状況に即していない。何故ならば、記号列の信頼性が
低い探索開始近傍は、むしろ正解を極力落とさないよう
に、探索ビーム幅を広めにして、かつ認識結果がほぼ狭
まれてきた終了近傍では探索ビーム幅を狭くして、処理
効率を上げることが必要である。図7(b)は以上の点
を考慮した、適応的な探索ビーム幅の制御を示す図であ
る。具体的には、4つのパラメータ(min、 max、 hold、
release)でパージングの探索ビーム幅が制御される。
これらの4つのパラメータは、評価実験を通して経験的
に決定される。
【0013】
【発明の効果】本発明のLRパージングテーブルと、パ
ージング処理における探索窓の適応的な制御の結果、現
状の計算機能力の条件下でも、実時間処理が可能な音声
認識、言語処理装置を実現できる効果がある。
【図面の簡単な説明】
【図1】HMMーLRパーザを用いた音声認識、言語処
理装置を示す図。
【図2】HMMーLRパーザで用いるLRパージングモ
デルを示す図。
【図3】LRテーブルの一実施例と実行例を示す図。
【図4】LRテーブル表現の一実施例を示す図。
【図5】本発明のひとつであるLRテーブルの圧縮と一
実施例を示す図。
【図6】LRパージングの一実行例を示す図。
【図7】本発明のひとつであるLRパージングでの適応
的な探索ビーム幅の制御の一実施例を示す図。
【符号の説明】
101…入力音声、102…マイクロフォン、103…
音声認識部、104…HMMパラメータファイル(標準
パターン)、105…認識スコア、106…音声認識部
と言語処理部とのインタフェース、107…音響認識ス
コアテーブル、108…予想候補、109…HMMーL
Rパーザ部、110…LR(パージング)テーブル、1
11…文法ファイル、112…上位N候補、113…応
用プログラム、114…端末(結果の表示部)、201
…LRパージングプログラム、202…入力音節記号
列、203…LR(パージング)テーブル、204…ス
タック、205…出力音節記号列。

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】少なくとも音韻、音節、あるいはそれに匹
    敵する言語表記に基づいた記号列を入力する機能と、該
    入力された記号列から、記号列に関する言語情報に基づ
    いて言語として存在する記号系列へ探索、変換する機能
    を有する音声・言語認識装置において、該記号列に関す
    る言語情報と探索、変換処理を記述、表現したメモリテ
    ーブルの構成を、処理順番と処理内容とをひとつのセッ
    トとし、さらに重複した処理内容をひとつにまとめたメ
    モリテーブルを有することを特徴とした音声認識・言語
    処理装置。
  2. 【請求項2】前記第1項記載の音声認識・言語処理装置
    において、言語表記に基づいた記号列を入力として、記
    号列に関する言語情報に基づいて言語として存在する記
    号系列へ探索、変換する機能において、探索する候補の
    数を処理のステップに対応して、適応的に制御すること
    方式を有することを特徴とする音声認識・言語処理装
    置。
  3. 【請求項3】少なくとも音声を入力する手段と、入力さ
    れた音声を分析する手段、分析して得られた音声の特徴
    量を基に、既に蓄えられている標準的な音声と照合し、
    入力音声を認識する手段を持つ音声認識装置において、
    認識された結果得られる音韻、あるいは音節記号列を、
    前記第1項記載の言語表記に基づいた記号列とすること
    を特徴とした音声認識・言語処理装置。
JP6081285A 1994-04-20 1994-04-20 音声認識・言語処理装置 Pending JPH07287594A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6081285A JPH07287594A (ja) 1994-04-20 1994-04-20 音声認識・言語処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6081285A JPH07287594A (ja) 1994-04-20 1994-04-20 音声認識・言語処理装置

Publications (1)

Publication Number Publication Date
JPH07287594A true JPH07287594A (ja) 1995-10-31

Family

ID=13742111

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6081285A Pending JPH07287594A (ja) 1994-04-20 1994-04-20 音声認識・言語処理装置

Country Status (1)

Country Link
JP (1) JPH07287594A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108074562A (zh) * 2016-11-11 2018-05-25 株式会社东芝 语音识别装置、语音识别方法以及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108074562A (zh) * 2016-11-11 2018-05-25 株式会社东芝 语音识别装置、语音识别方法以及存储介质
CN108074562B (zh) * 2016-11-11 2021-12-03 株式会社东芝 语音识别装置、语音识别方法以及存储介质

Similar Documents

Publication Publication Date Title
JP3454897B2 (ja) 音声対話システム
JP4213755B2 (ja) 音声翻訳装置、方法およびプログラム
JP3459712B2 (ja) 音声認識方法及び装置及びコンピュータ制御装置
JPH08278794A (ja) 音声認識装置および音声認識方法並びに音声翻訳装置
JP2007206888A (ja) 応答生成装置、方法及びプログラム
JPH04182000A (ja) 連続音声認識装置
JP2002215187A (ja) 音声認識方法及びその装置
JP2000200273A (ja) 発話意図認識装置
JP2005249829A (ja) 音声認識を行うコンピュータネットワークシステム
Klovstad et al. The CASPERS linguistic analysis system
JP6070809B1 (ja) 自然言語処理装置及び自然言語処理方法
JP3027543B2 (ja) 連続音声認識装置
US20060136195A1 (en) Text grouping for disambiguation in a speech application
JP2871420B2 (ja) 音声対話システム
JPH07287594A (ja) 音声認識・言語処理装置
JP2871557B2 (ja) 音声認識装置
JP2000222406A (ja) 音声認識翻訳装置及び方法
JPH06202688A (ja) 音声認識装置
JP2905686B2 (ja) 音声認識装置
Chiang et al. On jointly learning the parameters in a character-synchronous integrated speech and language model
JP3009654B1 (ja) 機械翻訳処理装置
WO2023243273A1 (ja) 発話データ生成装置、対話装置及び生成モデルの作成方法
CN113889112A (zh) 一种基于kaldi的在线语音识别的方法
JPH1039894A (ja) 音声による入力装置
JPH0486946A (ja) 拡張lrパーザによる文認識方式