JP2003316376A - 未知語登録装置および未知語登録方法 - Google Patents

未知語登録装置および未知語登録方法

Info

Publication number
JP2003316376A
JP2003316376A JP2002118739A JP2002118739A JP2003316376A JP 2003316376 A JP2003316376 A JP 2003316376A JP 2002118739 A JP2002118739 A JP 2002118739A JP 2002118739 A JP2002118739 A JP 2002118739A JP 2003316376 A JP2003316376 A JP 2003316376A
Authority
JP
Japan
Prior art keywords
unknown word
word
unknown
registered
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Abandoned
Application number
JP2002118739A
Other languages
English (en)
Inventor
Kotaro Fukui
孝太郎 福井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2002118739A priority Critical patent/JP2003316376A/ja
Publication of JP2003316376A publication Critical patent/JP2003316376A/ja
Abandoned legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 追加したい単語が含まれるフリーフォーマッ
トで記述された文書ファイルから音声認識辞書に単語を
登録する。 【解決手段】 未知語登録装置11は、未知語が含まれ
た文書ファイル10を読み込み、形態素解析などを行な
って単語を抽出し、音声認識辞書13に存在しない単語
を未知語として抽出する。抽出した未知語は一覧表示し
て、ユーザが未知語と未知語に付与された読みと品詞の
修正や削除を行なった後、選択した未知語を音声認識辞
書13に一括登録する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書ファイルから
音声認識辞書に存在しない未知語を抽出し、読みと品詞
を付与して、音声認識辞書に登録する未知語登録装置お
よび未知語登録方法に関する。
【0002】
【従来の技術】従来、音声認識装置において、音声認識
の対象となる単語を新たに音声認識辞書に登録する場
合、一単語づつ手動で登録を行なう方式、または特定の
フォーマットに従って単語、読み、品詞を記述して一括
登録を行う一括登録方式などにより行われていた。この
従来技術として例えば特開2002−14693号公報
がある。
【0003】前記公報においては、ネットワーク上に存
在する大量のテキストを解析して未知語を抽出して登録
する技術が開示されている。
【0004】しかしながら、この方法では膨大な量の未
知語が抽出されるため、実際に音声認識辞書に登録する
ためには、膨大な量の未知語から登録すべき未知語を探
さなければならない問題があった。
【0005】
【発明が解決しようとする課題】従来、音声認識装置に
おいて音声認識の対象となる単語を新たに音声認識辞書
に登録する場合、ネットワーク上に存在する大量のテキ
ストを解析して未知語を抽出して登録する方法では、膨
大な量の未知語が抽出されるため、実際に音声認識辞書
に登録するためには、膨大な量の未知語から登録すべき
未知語を探さなければならない問題があった。
【0006】本発明は、上記問題を解決するためになさ
れたもので、所定の文書ファイルを解析して未知語を抽
出し、音声認識辞書に登録する未知語の未知語登録装置
および未知語登録方法を提供することを目的とする。
【0007】
【課題を解決するための手段】上記目的を達成するため
本発明は、音声認識に使用する音声認識辞書と、前記音
声認識辞書のもととなるバックグラウンド辞書と、所定
の文書ファイルから単語を抽出し、その抽出した単語か
ら前記音声認識辞書に登録されていない単語を未知語と
して抽出し、前記バックグラウンド辞書を参照して前記
抽出した未知語に読みと品詞を付与する未知語抽出手段
と、前記未知語抽出手段により抽出された前記未知語を
表示する表示手段と、前記表示手段により表示された前
記未知語から登録すべき未知語を選択して前記音声認識
辞書に登録する登録手段とを具備することを特徴とす
る。
【0008】本発明によれば、フリーフォーマットで記
述された文書ファイルを解析して未知語を抽出し、抽出
した未知語に読みと品詞を付与して音声認識辞書に登録
することから、登録したい未知語が含まれている既知の
文書ファイルから未知語を抽出して、音声認識辞書に登
録できるため、他の方法に比べ簡単に未知語を音声認識
辞書に登録出来るようになる。
【0009】
【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。
【0010】図1は、本発明の実施の形態における未知
語の登録装置に関するブロック図である。図1において
10はフリーフォーマットで記述された未知語を含む文
書ファイル、11は未知語登録装置、12は音声認識装
置である。13は音声認識装置12に設けられた音声認
識辞書、14は音声認識装置12に設けられた音声認識
辞書13に登録されていない単語も登録されているバッ
クグラウンド辞書である。15は未知語登録装置11に
設けられ、入力データを解析し音声認識辞書13に登録
されていない単語を抽出する未知語抽出部、16は未知
語登録装置11に設けられ、未知語の一覧を表示し修正
や削除などの編集操作を行なう一覧表示・編集部、17
は未知語登録装置11に設けられ、未知語を音声認識辞
書13に登録する単語登録部である。18は未知語登録
装置の一覧表示・編集部16によって未知語の一覧が表
示される表示部、19は未知語登録装置11の一覧表示
・編集部16に未知語の修正や削除などの編集指示を行
なう入力部である。
【0011】図2は、未知語登録装置11の動作を示し
たフローチャートである。続いて図2のフローチャート
を用いて未知語登録装置11の動作について説明する。
【0012】未知語登録装置11の未知語抽出部15
は、文書ファイル10を読み込んで、形態素解析等を行
なって単語を抽出する(ステップS100)。そして、
未知語抽出部15は音声認識辞書13を参照して、抽出
された単語が音声認識辞書13に登録されていなければ
未知語と判断し、当該未知語の出現回数を数える(ステ
ップS101)。
【0013】また、未知語抽出部15はバックグラウン
ド辞書14を参照して、未知語と判定した単語がバック
グラウンド辞書14に登録されていれば、バックグラウ
ンド辞書14に登録されている読みと品詞を付与して内
部メモリに一時保存し、また当該未知語の単語はバック
グラウンド辞書14に登録されている単語であるため、
付与した読みと品詞の確信度が「高い」と判断する。一
方上記未知語がバックグラウンド辞書14に登録されて
いなければ、未知語抽出部15は読みと品詞を推定し、
その未知語に推定した読みと品詞を付与して内部メモリ
に一時保存し、推定した読みと品詞であるため、確信度
が「低い」と判断する(ステップS101)。
【0014】確信度は、ユーザに未知語抽出部15が未
知語に付与した読みと品詞が正しいかどうかの判断する
基準を示すもので、バックグラウンド辞書14に当該未
知語が登録されている場合、未知語に付与した読みと品
詞が正しいため確信度を“高”に設定し、そのまま音声
認識辞書13に登録出来ることを示す。一方、バックグ
ラウンド辞書14に当該未知語が登録されていない場
合、未知語に未知語抽出部15によって推定した読みと
品詞を付与するため確信度を“低”に設定し、音声認識
辞書13に登録するためにはユーザの判断が必要なこと
を示す。
【0015】次に、未知語登録装置11の未知語抽出部
15は、未知語を検出すると(ステップS102のYE
S)一覧表示・編集部16へ未知語の単語と読みと品詞
などを渡す。一覧表示・編集部16は、抽出した未知語
の一覧を確信度と出現回数に従って並べ替え(ステップ
S103)、表示部18に表示する(ステップS10
4)。表示部18に表示する未知語は、確信度“高”で
出現回数が多い未知語から確信度“低”で出現回数が少
ない未知語の順に表示される。確信度は、後述するチェ
ックボックスで表示され、確信度が“高”の時にはチェ
ックボックスにチェック印がつけられる。ユーザは、表
示部18に表示された未知語の一覧を参照し、表示され
た未知語と読みと品詞が正しいか否かの判断、正しくな
いときの修正や削除処理、音声認識辞書13に登録する
/登録しないの判断を行ない、入力部19を介して編集
指示を行なう(ステップS105)。そしてユーザは、
登録する未知語があれば、入力部19を介して登録指示
を行なう。一覧表示・編集部16は、登録指示を受ける
と、単語登録部17を介して音声認識辞書13に一括し
て選択した未知語を登録する(ステップS106)。
【0016】なお、未知語抽出部15は、文書ファイル
10から全ての単語が抽出され、未知語が無い場合(ス
テップ102のNO)には処理を終了する。
【0017】図3は、未知語登録装置11の未知語の抽
出処理(ステップS101)の詳細な動作を示したフロ
ーチャートである。続いて図3のフローチャートを用い
て未知語を抽出する動作について説明する。
【0018】未知語登録装置11の未知語抽出部15
は、文書ファイル10を読み込み、形態素解析などを行
なって単語を抽出する(ステップS120)。文書ファ
イル10が終了し、単語が抽出できなくなると(ステッ
プS121のYES)、未知語抽出処理を終了する。
【0019】次に、未知語抽出部15は、抽出した単語
が音声認識辞書13に登録されているか否かを調べる
(ステップS122)。そして、音声認識辞書13に登
録されていると判断すると(ステップS122のYE
S)、ステップS120に戻り、次の単語を抽出する。
【0020】次に、未知語抽出部15は、抽出した単語
が音声認識辞書13に登録されていないと判断すると
(ステップS122のNO)、未知語と判断し、当該単
語の出現回数を数える(ステップS123)。
【0021】次に、未知語抽出部15は、バックグラウ
ンド辞書を参照して、当該単語がバックグラウンド辞書
14に登録されているか否かを調べる(ステップS12
4)。バックグラウンド辞書14に登録されていると判
断すると(ステップS124のYES)、バックグラウ
ンド辞書14に登録されている読みと品詞を付与し(ス
テップS128、ステップS129)、また、確信度を
“高”(ステップS130)とした未知語の一覧を内部
メモリに一時保存し、ステップS120に戻り、次の単
語を抽出する。当該単語がバックグラウンド辞書14に
登録されていないと判断すると(ステップS124のN
O)、未知語抽出部15は当該単語の読みと品詞を推定
して付与し(ステップS125、ステップS126)、
上記の確信度を“低”(ステップS127)とした未知
語の一覧を内部メモリに一時保存し、ステップS120
に戻り、次の単語を抽出する。
【0022】図4は、一覧表示・編集部16によって表
示部18に表示する一覧表示の例を示したものである。
図4において21は音声認識辞書13に登録する未知語
を指定するチェックボックス、22は未知語の見出し
(表記)、23は付与された読み、24は付与された品
詞、25は未知語の出現回数である。
【0023】本発明では、このチェックボックス21
は、未知語検出時に求めた確信度に応じて自動的にチェ
ックされる特徴を有している。即ち、確信度“高”と判
定された未知語は、バックグラウンド辞書14から得ら
れた、読みと品詞が付与されており、このまま音声認識
辞書13に登録可能であるとして、自動的にチェック印
が表示されている。一方、確信度“低”と判定された未
知語はバックグラウンド辞書14に登録されておらず、
読みと品詞が未知語抽出部15により推定付与されたも
のであることから、更にユーザからの判断が必要とな
る。
【0024】一覧表示は、確信度と出現回数で並べ替え
て表示される。即ち、確信度“高”(図4ではチェック
ボックス21のチェック印が該当)で出現回数の多い未
知語から確信度“低”で出現回数が少ない未知語の順に
表示される。
【0025】ユーザは、表示部18に表示された未知語
の一覧表示を参照し、未知語および未知語に付与された
読みまたは品詞に誤りがあれば、当該未知語を入力部1
9を介して選択し、未知語および未知語に付与された読
みまたは品詞の修正や削除を行なう。また、必要に応じ
て一覧表示に含まれていない未知語の追加を行う。
【0026】図5は、単語の追加を行う時に表示部18
に表示される単語登録の画面の例を示したものである。
図5において26は単語登録のダイアログ、27は単語
の読みを入力する入力ボックス、28は単語の見出しを
入力する入力ボックス、29は単語の品詞を選択するコ
ンボボックスである。新規に単語を追加する場合、入力
ボックス28に単語を記入し、入力ボックス27に単語
の読みを記入し、コンボボックス29を操作して品詞を
選択して単語の追加を行う。
【0027】そして、ユーザは、登録が必要な未知語
は、入力部19を介してチェックボックス21にチェッ
ク印を付け、登録が不要な未知語はチェックボックス2
1のチェック印を消し、入力部19を介して登録指示を
行なう。これにより、チェックボックス21にチェック
印が付いている未知語が単語登録部17を介して音声認
識辞書13に一括登録される。
【0028】
【発明の効果】以上述べたように、本発明によれば、所
定の文書ファイルを用いて音声認識辞書に単語の登録が
出来るようになり、追加したい単語が含まれる文書ファ
イルを用意するだけで、簡単に音声認識辞書に登録出来
る。
【図面の簡単な説明】
【図1】 本発明の実施の形態における未知語登録装置
の動作を示したブロック図。
【図2】 本発明の実施の形態における未知語登録処理
を示したフローチャート。
【図3】 本発明の実施の形態における未知語抽出処理
を示したフローチャート。
【図4】 本発明の実施の形態における一覧表示の画面
例。
【図5】 本発明の実施の形態における単語追加の画面
例。
【符号の説明】
10 文書ファイル 11 未知語登録装置 12 音声認識装置 13 音声認識辞書 14 バックグラウンド辞書 15 未知語抽出部 16 一覧表示部 17 単語登録部 18 表示部 19 入力部 21 確信度および登録要否を示すチェックボックス 22 単語の見出し(表記) 23 読み 24 品詞 25 出現回数 27 読みの入力ボックス 28 単語の見出しの入力ボックス 29 品詞を選択するためのコンボボックス

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 音声認識に使用する音声認識辞書と、前
    記音声認識辞書のもととなるバックグラウンド辞書と、
    所定の文書ファイルから単語を抽出し、その抽出した単
    語から前記音声認識辞書に登録されていない単語を未知
    語として抽出し、前記バックグラウンド辞書を参照して
    前記抽出した未知語に読みと品詞を付与する未知語抽出
    手段と、前記未知語抽出手段により抽出された前記未知
    語を表示する表示手段と、前記表示手段により表示され
    た前記未知語から登録すべき未知語を選択して前記音声
    認識辞書に登録する登録手段とを具備することを特徴と
    する未知語登録装置。
  2. 【請求項2】 前記未知語抽出手段は、前記抽出した未
    知語が前記バックグラウンド辞書に登録されている場
    合、前記バックグラウンド辞書から得られる読みと品詞
    を当該未知語に付与し、前記抽出した未知語が前記バッ
    クグラウンド辞書に登録されていない場合、当該未知語
    の読みと品詞を推定して付与することを特徴とする請求
    項1項記載の未知語登録装置。
  3. 【請求項3】 前記未知語抽出手段は、前記抽出した未
    知語が前記バックグラウンド辞書に登録されている場
    合、当該未知語に付与した読みと品詞の確信度が高いと
    設定し、前記抽出した未知語が前記バックグラウンド辞
    書に登録されていない場合、当該未知語に推定付与した
    読みと品詞の確信度が低いと設定して、前記読みと品詞
    と確信度を一時記憶することを特徴とする請求項2項記
    載の未知語登録装置。
  4. 【請求項4】 前記未知語抽出手段は前記未知語の前記
    文書ファイルでの出現回数を数え、前記確信度が高で前
    記出現回数が多い前記未知語から前記確信度が低で前記
    出現回数が少ない前記未知語の順に並べ替えて表示する
    ことを特徴とする請求項3項記載の未知語登録装置。
  5. 【請求項5】 前記表示手段により表示した前記未知語
    を修正する編集手段を更に具備し、前記編集手段は、前
    記未知語と付与された前記読みと前記品詞の修正、削除
    および新たな未知語を追加することを特徴とする請求項
    1項記載の未知語登録装置。
  6. 【請求項6】 音声認識に使用する音声認識辞書と、前
    記音声認識辞書のもととなるバックグラウンド辞書とを
    有する音声認識装置の未知語登録方法であって、所定の
    記述されている文書ファイルから単語を抽出し、前記音
    声認識辞書を参照して、その抽出した単語から前記音声
    認識辞書に登録されていない単語を未知語として抽出
    し、前記バックグラウンド辞書に前記未知語が登録され
    ている場合、その登録されている読みと品詞を当該未知
    語に付与し、前記バックグラウンド辞書に前記未知語が
    登録されていない場合、読みと品詞を推定して当該未知
    語に付与し、前記読みと品詞が付与された前記未知語を
    表示し、前記未知語から登録すべき未知語を選択して前
    記音声認識辞書に登録することを具備することを特徴と
    する未知語登録方法。
  7. 【請求項7】 前記抽出した未知語が前記バックグラウ
    ンド辞書に登録されている場合、当該未知語に付与した
    読みと品詞の確信度が高いと設定し、前記抽出した未知
    語が前記バックグラウンド辞書に登録されていない場
    合、当該未知語に推定付与した読みと品詞の確信度が低
    いと設定して、前記読みと品詞と確信度が付与された前
    記未知語の一覧を表示することを特徴とする請求項6項
    記載の未知語登録方法。
  8. 【請求項8】 前記確信度が高いと設定された未知語
    は、前記音声認識辞書に登録する未知語として自動選択
    されていることを特徴とする請求項7記載の未知語登録
    方法。
JP2002118739A 2002-04-22 2002-04-22 未知語登録装置および未知語登録方法 Abandoned JP2003316376A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002118739A JP2003316376A (ja) 2002-04-22 2002-04-22 未知語登録装置および未知語登録方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002118739A JP2003316376A (ja) 2002-04-22 2002-04-22 未知語登録装置および未知語登録方法

Publications (1)

Publication Number Publication Date
JP2003316376A true JP2003316376A (ja) 2003-11-07

Family

ID=29535494

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002118739A Abandoned JP2003316376A (ja) 2002-04-22 2002-04-22 未知語登録装置および未知語登録方法

Country Status (1)

Country Link
JP (1) JP2003316376A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8719021B2 (en) 2006-02-23 2014-05-06 Nec Corporation Speech recognition dictionary compilation assisting system, speech recognition dictionary compilation assisting method and speech recognition dictionary compilation assisting program
JP2015215390A (ja) * 2014-05-08 2015-12-03 日本電信電話株式会社 音声認識辞書更新装置、音声認識辞書更新方法、プログラム
JP2018040906A (ja) * 2016-09-06 2018-03-15 株式会社東芝 辞書更新装置およびプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8719021B2 (en) 2006-02-23 2014-05-06 Nec Corporation Speech recognition dictionary compilation assisting system, speech recognition dictionary compilation assisting method and speech recognition dictionary compilation assisting program
JP2015215390A (ja) * 2014-05-08 2015-12-03 日本電信電話株式会社 音声認識辞書更新装置、音声認識辞書更新方法、プログラム
JP2018040906A (ja) * 2016-09-06 2018-03-15 株式会社東芝 辞書更新装置およびプログラム

Similar Documents

Publication Publication Date Title
JP2002297588A (ja) 訳例辞書の自動生成方法およびプログラムおよび装置
JP2008083952A (ja) 辞書作成支援システム、方法及びプログラム
JP4245530B2 (ja) 言語モデル作成装置及び方法並びにプログラム
JP2003316376A (ja) 未知語登録装置および未知語登録方法
JP4005925B2 (ja) 文書処理方法および文書処理装置およびプログラム
JP2005107931A (ja) 画像検索装置
CN114968345A (zh) 代码处理方法、系统、计算设备及存储介质
JPH0877196A (ja) 文書情報抽出装置
JP6040819B2 (ja) 情報処理装置及びプログラム
JP2017167219A (ja) 読み上げ情報編集装置、読み上げ情報編集方法およびプログラム
JP3666066B2 (ja) 多言語文書登録検索装置
JP2010237351A (ja) ユーザ辞書作成システム、方法、及び、プログラム
JPH0750486B2 (ja) キ−ワ−ド抽出装置
JP2001109740A (ja) 中国語文書作成装置及び中国語文書作成方法
JP2001142893A (ja) 情報公開装置および文章公開方法
JP2001155017A (ja) タグ付き文書作成装置およびそのプログラムを記録した記録媒体
JP4007661B2 (ja) 自然言語統計データベース装置
JP3771369B2 (ja) 文字認識装置及び文字認識処理方法
JP3893600B1 (ja) 基底データベース生成方法と基底リスト生成方法及びその装置、コンピュータプログラム
JP2982076B2 (ja) 文章処理装置および方法
JP3387582B2 (ja) 文字処理装置
JP2003256415A (ja) 辞書構築支援方法、装置及びプログラム
JP2838850B2 (ja) 仮名漢字変換装置
JP2004005103A (ja) 類似文書検索装置および類似文書検索方法
JPH09128385A (ja) 文書作成装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050411

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050415

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050606

A762 Written abandonment of application

Free format text: JAPANESE INTERMEDIATE CODE: A762

Effective date: 20060818