JPH0736882A - 辞書検索装置 - Google Patents

辞書検索装置

Info

Publication number
JPH0736882A
JPH0736882A JP5178209A JP17820993A JPH0736882A JP H0736882 A JPH0736882 A JP H0736882A JP 5178209 A JP5178209 A JP 5178209A JP 17820993 A JP17820993 A JP 17820993A JP H0736882 A JPH0736882 A JP H0736882A
Authority
JP
Japan
Prior art keywords
character
unit
group
dictionary
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5178209A
Other languages
English (en)
Inventor
Fumito Nishino
文人 西野
Naomi Sugimoto
尚美 杉本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP5178209A priority Critical patent/JPH0736882A/ja
Priority to US08/235,653 priority patent/US5615378A/en
Priority to CN94104998A priority patent/CN1095137C/zh
Priority to KR1019940009402A priority patent/KR970008023B1/ko
Publication of JPH0736882A publication Critical patent/JPH0736882A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 辞書検索装置において、入力ミスによりこれ
まで辞書検索できなかった単語についても検索できるよ
うにする。 【構成】 文字の部分集合に対してグループIDを与え
る変換文字定義体4、文字をグループIDに置き換える
文字−グループID変換部3、入力部1から入力された
文字列をグループID列に置き換える入力文字列変換部
2、単語辞書6を表記グループIDにより定義された変
換単語辞書7に変換する辞書変換部5、グループID列
により変換単語辞書7を検索する辞書検索部8により辞
書検索装置を構成する。変換文字定義体で定義された文
字集合の要素を同一とみなすことにより、辞書検索でき
なかった単語についても辞書検索できるようになる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、日本語、中国語、英語
等の言語を使用した文書の処理を行うための辞書検索装
置に関するものである。さらに本発明は、前記辞書検索
装置を使用して形態素解析、誤字訂正、文字標準化、ま
たは文字認識後処理を行う装置に関するものである。
【0002】
【従来の技術】近年、ワードプロセッサ、パソコン、ワ
ークステーション等の計算機が普及してきている。この
計算機を利用して文書の翻訳、検索、配付等の様々な文
書処理を行いたいという要求がある。翻訳等の処理を行
うには、計算機内部に文書を格納し、単語辞書を参照し
ながら文書中の文の形態素解析を行うことが必要であ
る。
【0003】従来の形態素解析は、入力文字列には正し
い入力がされているという前提のもとに形態素解析を行
っていた。このような形態素解析を行うには、文書中の
文は間違いなく入力されていることが必要である。
【0004】
【発明が解決しようとする課題】しかしながら、現実に
は入力文字列は、システム開発者が意図していたものと
は異なったものが入力される場合がある。例えば、「コ
ンピュータ」と入力されることを想定していたものが
「コンピュ−タ」と入力されるることがある。これは、
長音記号「ー」と入力されることを期待していたところ
がマイナス記号「−」で入力されたものである。また、
「パーザー」と入力されることを期待していたところを
「ザ」の濁点を落として「パーサー」と入力されること
がある。さらに、「独擅場」(どくせんじょう)と入力
すべきところを「土壇場」からの連想で誤って「擅」の
手篇を土篇として「独壇場」(どくだんじょう)と入力
することがある。以上の入力ミスは、類似文字の使用に
よる入力ミスである。
【0005】また、「トマト」と片仮名で入力すべきと
ころを平仮名で「とまと」と入力することがある。以上
のような違いは人間にとって些細な違いであるが、翻訳
等の処理をするときに使用するシステムの辞書に正しい
単語しか登録されていなければ、正しく解析されないと
いう問題点が生じる。
【0006】また、文書を書く人が異なったり、例えば
かな漢字変換辞書が異なるというように書くときの環境
が異なると、「滝沢」と「瀧澤」というように、異体字
が混在することがある。「瀧」は「滝」の旧字体、
「澤」は「沢」の旧字体であり、いずれの文字も一般に
全く同じ発音・意味で使用されているものである。しか
しながら、システムの辞書に標準外の文字である旧字体
が登録されていなければ、従来の形態素解析においては
「瀧」「澤」のような旧字体は、未登録語として出力さ
れるだけで、正しい候補が示されなかった。
【0007】さらに、従来の活字読取装置または手書き
入力文字読取装置等の文字認識処理装置においては、読
み取った各文字に対して複数の候補文字を出力する。こ
のような文字認識後処理装置を用いて入力文字を得る場
合、各文字に対して複数の候補文字を受け取り、その候
補文字の組合せを用いて辞書検索を行うこととなる。し
たがって、長さnの文字列の各文字に対してm個の候補
文字があったとすると、mn の文字列の組合せから辞書
を検索することとなる。このため、各文字の候補数が多
くなり、候補文字の組合せの数が増加するので、文字認
識後処理の速度が遅くなる。
【0008】この文字認識後処理の速度を向上させるた
めに、従来、各文字位置での候補文字数をm’個に絞り
こむことが行われる。しかしながら、この絞り込みの結
果、正解文字がこのm’個の候補文字から排除された場
合は、正解単語が検索できないこととなる。本発明は、
変換文字定義体で定義された文字集合の要素を同一とみ
なすことにより、入力ミスによってこれまで辞書検索で
きなかった単語についても、辞書検索できる装置を提供
することを目的とする。
【0009】本発明は、上記のようにこれまで辞書検索
されなかった単語も辞書検索できる辞書検索部を使用す
ることにより、エラー入力を許容する形態素解析装置を
提供することを目的とする。本発明は、上記のようにこ
れまで辞書検索されなかった単語も辞書検索できるよう
にすることにより、文字を標準化したり、誤った単語を
修正したりすることができる文字列訂正装置を提供する
ことを目的とする。
【0010】本発明は、文字認識後処理装置の出力の各
文字位置での候補文字をグループで管理することによ
り、各文字位置での候補グループ数が少なくなり、候補
文字の組合せが減少する。これにより、文字認識後処理
の速度が向上した文字認識後処理装置を提供することを
目的とする。
【0011】
【課題を解決するための手段】上記目的を達成するた
め、本発明は、入力部から与えられた入力文字列を変換
して出力部に出力する辞書検索装置において、文字の集
合C={c1,c2,...,c n }をいくつかの部分集合(G
i ⊂C)に分類し、各部分集合に対してグループIDを
与えた変換文字定義体と、この変換文字定義体を使って
文字列の各文字をグループIDに置き換える処理を行う
文字−グループID変換部と、入力部から入力された入
力文字列を、この文字−グループID変換部を呼び出す
ことによって入力グループID列に変換する入力文字列
変換部と、前記入力部に出現する意味のある部分文字列
である単語を保持している単語辞書と、この単語辞書の
中に定義されている各単語の表記文字列を、前記文字−
グループID変換部を呼び出すことによって表記グルー
プID列に変換を行う辞書変換部と、この辞書変換部に
より変換された変換単語辞書と、前記入力文字列変換部
で変換された入力グループID列に対して、前記表記グ
ループIDによって表現されている変換単語辞書を検索
する辞書検索部とにより辞書検索装置を構成する。
【0012】本発明はまた、機械翻訳または自然言語イ
ンターフェースなどの文の解析を行う装置において、文
を入力する入力部と、前記辞書検索装置を有し、前記入
力部から出力された文を通すことによって辞書検索を行
う拡張辞書検索部と、文法規則と、この辞書検索結果を
文法規則と照らし合わせながら形態素解析を行って、辞
書情報付きの形態素解析結果を出力する処理を行う文法
チェック部とによりエラー入力を許す形態素解析装置を
構成する。
【0013】本発明はまた、前記形態素解析装置におい
て、前記文法チェック部による形態素解析の結果を文に
合成して出力する形態素合成部を設けることにより文字
列訂正装置を構成する。本発明はまた、前記形態素解析
装置において、文字認識処理装置の認識結果により得
た、入力文字列の各文字に対して複数の候補文字を持つ
候補文字列を前記入力部から前記拡張辞書検索部に入力
し、前記文法チェック部と前記出力部の間に、前記文法
チェック部による形態素解析の結果から得られた複数の
形態素解析候補から、適当な評価関数によって候補順位
を決定することにより形態素解析候補を出力部に出力す
る形態素決定部を設けることにより文字認識後処理装置
を構成する。
【0014】
【作用】文法Gは、非終端記号の集合N、終端記号の集
合Σ、生成規則の集合P、出発記号Sによって、G=
(N,Σ,P,S)として表され、文法G上の言語L
(G)はL(G)={t|S⇒* t∧t∈Σ* }として
表される。ただし、Σ* はΣの記号からなる長さ0以上
の列の集合である。
【0015】今、ω,ω’は単語であり、これらは文字
i の列であるとし、ω=c1,c2,...,ci ,..., cn
をΣに属する終端記号、ω’=c1,c2,...,
i ’,..., c n をΣに属さない終端記号とする。S⇒
* μωνという導出があってもS≠⇒*μωνがなけれ
ば、ci がci ’に変わっただけでも言語L(G)で受
理されなくなる。すなわち、テキスト中の1文字の誤り
によって正しい解析がなされないことになる。
【0016】本発明では、変換文字定義体を設けること
によって、ci とci ’とを同一のグループとするよう
な変換Fを導入することができる(F(ω)=F
(ω’))。このとき、文法はGF =(N,F(Σ),
P,S)が定義され、この文法GFで受理される言語は
L(GF )={t|S⇒* F(t)∧F(t)∈(Σ)
* }となる。今GF のもとに、S⇒* F(μ)F(ω)
F(ν)という導出があるならば、F(ω)=F
(ω’)から、S⇒* F(μ)F(ω’)F(ν)とい
う導出もあることになる。すなわち、変換文字定義体に
よって同一のグループにマッピングされる字に対する誤
りが存在しても正しく解析されることを意味している。
【0017】例えば、前述の長音記号「ー」とマイナス
記号「−」を同一のグループとして定義しておけば、
「コンピュータ」しか辞書に定義(Σに属す)されてい
なくても、入力中のマイナス記号「−」を用いた「コン
ピュ−タ」に対して、正しい長音記号「ー」を用いた
「コンピュータ」という単語を引くことが可能となり、
文字を訂正することができる。
【0018】同様に、異体字の「滝」と「瀧」を同一の
グループとして定義しておいて、辞書に新字体の「滝
沢」の方だけを登録しておくことにより、旧字体を用い
た「瀧沢」という入力に対して、「滝沢」という単語が
検索されて出力される。したがって、文字の標準化がで
きることになる。文字認識後処理装置においては、文字
認識処理装置から入力された候補文字はその文字のグル
ープ番号に変換される。したがって、あらかじめ文字認
識処理装置が誤読しやすそうな類似文字を同一グループ
になるように変換文字定義体を定義しておくことによっ
て、候補文字のグループ数が少なくなり、これによって
辞書と参照するための候補文字の組合せが少なくなる。
【0019】また、文字認識処理装置から出力された候
補文字中に正解文字が含まれていない場合でも、類似文
字である同一グループ中に正解文字が存在しているなら
ば、正解単語を見つけ出すことができることとなる。
【0020】
【実施例】以下本発明の辞書検索装置、形態素解析装
置、文字列訂正装置、および文字認識後処理装置につい
て、それらを日本語の文書処理に適用した実施例につい
て説明する。なお、適用する言語が日本語であることは
発明の本質的なことではない。本発明は、英語、中国語
のような日本語以外の言語に対しても適用できるもので
ある。また、自然言語に限らず、語彙と文法規則が定義
されたプログラム言語等の人工的な言語に対しても適用
できるものである。
【0021】以下の各実施例においては、同一機能を有
するものには同一符号を付して重複する説明を省略す
る。
【0022】〔実施例1〕本発明の辞書検索装置の実施
例について、以下に説明する。図1は、本実施例の構成
図である。1は入力部であり、ファイル、入力デバイス
等から文字列を読み込んで、その文字列をコード化され
た文字列として出力するものである。
【0023】2は入力文字列変換部であり、入力部1か
ら入力された入力文字列を、後述の文字−グループID
変換部3を呼び出すことによって入力グループID列に
変換するものである。3は文字−グループID変換部で
あり、後述の変換文字定義体4を使って文字列の各文字
をグループIDに置き換える処理を行うものである。
【0024】4は変換文字定義体であり、文字の集合C
=c1,c2,...,cn をいくつかの部分集合(Gi ⊂C)
に分類し、各部分集合に対してグループIDを与えたも
のである。5は辞書変換部であり、後述の単語辞書6の
中に定義されている各単語の表記文字列に対して、文字
−グループID変換部3を呼び出すことによって表記グ
ループID列に変換を行うことにより、あらかじめ表記
グループIDによって定義された変換単語辞書を作成す
る。
【0025】6は単語辞書であり、入力部に出現する意
味のある部分文字列である単語を保持しているものであ
る。7は変換単語辞書であり、変換文字定義体4の定義
にしたがって辞書変換部5によって単語辞書6の表記部
分の文字がグループIDに置き換えられたものである。
【0026】8は辞書検索部であり、入力文字列変換部
2で変換された入力グループID列に対して表記グルー
プIDによって表記されている変換単語辞書7を検索す
るものである。次に、以上のように構成された辞書検索
装置の動作について実例を用いて、図2にしたがって説
明をする。
【0027】入力部1において、ファイルからの読み込
みまたはキーボード等の入力装置からの読み込みを行
う。この読み込みにより、文字列が入力文字列変換部2
に入力される。以下、入力部1から「コンピュータ」と
入力すべきところを、誤って「コンヒュータ」という文
字列が与えられた場合(「ピ」の半濁点が落ちてい
る。)について説明をする。
【0028】入力文字列変換部2は、入力部1から与え
られた文字列の各文字を文字−グループID変換部3に
よってグループIDに変換する。文字−グループID変
換部3の動作を図3のフローチャートにより説明する。
ステップS1で被変換文字列sを入力として受け取る。
ステップS2でポインタpがsの先頭文字を指すように
値を設定する。
【0029】ステップS3で、ポインタpが文字列の終
わり(最終文字の後)を指しているかどうかを判定す
る。ポインタpが文字列の終わりを指しているならば、
この変換処理は終了で、グループIDに置き換えた文字
列を辞書検索部8に返す。ポインタpがまだ文字列の終
わりを指していないならば、ステップS3へ進む。ステ
ップS4では、ポインタpが指している文字ci を図2
の変換文字定義体4によって定義されているグループI
Dgi に置き換える。
【0030】ステップS5ではポインタpが指している
先を1文字進め、ステップS3に戻る。以上のステップ
により、入力部1から入力文字列変換部2に入力された
「コンヒュータ」の文字列は、入力グループID列「1
23145」に変換されて、辞書検索部8に出力され
る。
【0031】ここで、辞書検索部8が検索する変換単語
辞書7について説明する。単語辞書6は、入力部1に出
現する意味のある部分文字列を保持している。単語辞書
6の内容の一部分が図2に表示されている。図2には単
語の表記と品詞だけが示されているが、各単語には、こ
れ以外に、読み、意味的な属性等のさまざまな情報が付
加されていてもよい。
【0032】辞書変換部5は、単語辞書6の中に定義さ
れている各単語の表記文字列に対して、文字−グループ
ID変換部3を呼び出すことによりグループID列を作
り出し、このグループID列を保有する変換単語辞書7
を作成する。変換単語辞書7が保有する単語と文字グル
ープ番号列の一部が図2に表示されている。辞書検索部
8は、入力グループID列に対応するグループID列を
キーとしてもつ辞書要素を変換単語集合7から検索す
る。前記入力グループID列「123145」に対する
辞書検索結果として「コンピュータ 123145」が
検索できる。このように、本実施例によれば、これまで
辞書検索されなかったような、入力ミスによる「コンヒ
ュータ」という単語でも、「コンピュータ」という正し
い単語で辞書検索されることとなる。
【0033】以上説明した例は、類似文字集合により変
換文字定義体を形成した例であるが、変換文字定義体と
して、その他に平仮名と片仮名のペアの集合または新字
体と旧字体のペアの集合等を登録することもできる。こ
のように変換文字定義体4で定義された文字集合の要素
を同一とみなすことにより、これまで辞書検索できなか
った、エラー入力された単語も辞書検索できることとな
る。
【0034】なお、単語辞書6および変換単語辞書7の
構造としては、通常の自然言語処理の単語辞書と同様
な、前方一致圧縮構造、バイナリツリー構造、TRIE
構造等の辞書構造であってもよい。 〔実施例2〕上記実施例1の辞書検索装置を拡張辞書検
索部として使用することにより、機械翻訳または自然言
語インターフェース等の文解析を行う形態素解析装置に
おいて、エラー入力を許容する形態素解析を行うことが
できる。この形態素解析を行う形態素解析装置の実施例
について以下に説明する。
【0035】図4は、本実施例の構成図である。10
は、前記実施例1で説明した辞書検索装置を有する拡張
辞書検索部である。この拡張辞書検索部10は、後述の
入力部11から入力されたテキストを管理し、後述の文
法チェック部13と連動することにより、テキスト中の
任意の位置からの辞書検索や、別候補の検索・出力の制
御を行う。拡張辞書検索部10内の符号2〜8は前記図
1の同一符号部分に相当する。
【0036】11は、入力部であり、ファイル、入力デ
バイス等から文字列を読み込んで、コード化された文字
列として出力するものである。12は、文法規則であ
り、入力されたテキストの文法を規定する。この文法規
則12には通常の文法規則が使用される。13は、文法
チェック部であり、拡張辞書検索部10から出力された
形態素列が、文法規則12に適合しているかどうかを判
断し、不適合があれば拡張辞書検索部10に対して別の
候補を出力するように要求する。この文法チェック部1
3としては、通常の形態素解析で行われるような、接続
マトリックスによる方法、文脈自由文法規則によるもの
などが使用される。
【0037】14は、出力部であり、文法チェック部1
3で適合と判定された形態素解析結果を出力するもので
ある。本実施例における入力部11からの入力は、単一
の単語だけではなく文として与えられる。今、「タンゴ
を踊る」という入力列を考える。拡張辞書検索部10
は、上記入力文字列を部分文字列に分解して、辞書検索
部8を呼ぶ。上記の入力列に対しては、以下の各文字列
に対して辞書検索部8を呼び出す。
【0038】「タンゴを踊る」 「タンゴを踊」 「タンゴを」 「タンゴ」 「タン」 「タ」 辞書検索部8において上記各文字列の中の一部の文字列
に対する変換単語辞書7の検索が行われる。これに成功
すると、その検索結果が文法チェック部13に戻ってく
る。
【0039】文法チェック部13は、この取れてきた単
語を元に通常の形態素解析と同様に文法規則12と照ら
し合わせながら文字ポインタを進めて形態素解析を続け
る。文法チェック部13は、形態素列が文法規則12に
不適合であれば、辞書検索負8に対して別の候補を出力
するように要求する。その結果、辞書情報付きの形態素
解析結果が出力部14に出力される。
【0040】以上説明したように、実施例1で説明した
辞書検索装置を有する拡張辞書検索部を使用して形態素
解析装置を構成することにより、エラー入力を許容する
形態素解析装置を得ることができる。なお、以上説明し
た例では、辞書検索部8に文字列sを与えた時、文字列
sに対応する辞書中の単語を検索しているが、文字列s
=c1,c2,...,cn の前方からの部分文字列si =c1,
2,...,ci (i≦n)に対する辞書単語を検索するこ
とも実現できる。
【0041】〔実施例3〕上記実施例2の形態素解析装
置を使用することにより、文中の誤字の訂正または異体
字の標準化などを行う文字列訂正装置を得ることができ
る。この文字列訂正装置の実施例について以下に説明す
る。図5は、本実施例の構成図である。
【0042】図において、文法チェック部13と出力部
14の間に形態素合成部15が設けられる。形態素合成
部15は、文法チェック部13で得られた形態素解析結
果を合成して、テキストとして出力する。具体例として
は、文法チェック部13により与えられた形態素列の表
記部分のみを次々と出力することにより、テキストが得
られる。
【0043】〔実施例4〕上記実施例1の辞書検索部を
文字認識後処理装置の拡張辞書検索部として使用するこ
とにより、文字認識後処理装置における各文字位置での
候補文字の候補数を少なくし、処理速度を速くすること
ができる。この文字認識後処理装置の実施例について図
6を用いて以下に説明する。
【0044】活字読取装置あるいは手書き文字読取装置
等の文字認識を行う入力デバイスは、読み取った文字列
の各文字に対して候補文字集合を割り当てる。入力部1
1は、この入力デバイスにより候補文字集合が割り当て
られた列を読み込んで、拡張辞書検索部10に入力す
る。また、文法チェック部13と出力部14の間に、形
態素解析結果をもととして、複数ある形態素解析候補か
ら適当な評価関数によって候補順位を決定して形態素解
析結果を出力する形態素決定部15が接続される。
【0045】次に、本実施例における文字認識結果後処
理手順を説明する。OCR装置が「コンピュータ」とい
う文字を読み取ったとする。OCR装置は、この文字列
を認識した結果、各文字に対して候補文字集合を割り当
てる。その結果、 (コ,ユ)(ン,シ)(ピ,ビ)(ュ,ユ)(ー,−)
(タ,ク) の候補文字が各文字に割り当てられて、拡張辞書検索部
10に入力される。
【0046】入力文字列変換部2は、この各候補文字を
文字−グループID変換部3によって、変換文字定義体
4を用いてグループ番号に対応させる。なお、変換文字
定義体4の内容については図2を参照されたい。この結
果、 (1)(2,7)(3)(1)(4)(5) というグループ番号が得られる。
【0047】辞書検索部8は、このグループ番号から
「123145」と「173145」という2つのグル
ープ番号列を得て、これらグループ番号列に対して変換
単語辞書7を引く。この結果、「コンピュータ」という
単語を含む候補が得られる。この候補は、文法チェック
部13に出力される。文法チェック部13は、複数の候
補が得られた場合、文法規則12に則って形態素解析を
行う。形態素決定部15はこの形態素解析の結果をもと
に、複数ある形態素解析候補から適当な評価関数によっ
て候補順位を決定して、形態素解析候補を出力部14に
出力する。
【0048】以上説明したように、本実施例によれば、
類似文字を1つのグループとみなすことにより、各文字
位置での候補文字をグループで管理することになるの
で、それぞれの文字位置での候補数は少なくなり、候補
文字中のグループ数は候補文字数に比べて大幅に減少す
る。これにより、文字認識後処理の速度が向上した文字
認識後処理装置を得ることができる。
【0049】また、本実施例においては、候補文字数を
m’個に絞った場合、グループ番号列はk(≦m)個の
グループに縮退される。しかしながら、それぞれのグル
ープはNi 個の文字要素から構成されているから、実際
にはΣi k i (≧m)個の候補文字が存在したのと同
じになる。これによって、これまで候補文字数を絞った
場合に検索できなくなった正解単語を、本実施例により
検索できることとなる可能性が高くなる。
【0050】〔実施例5〕前述の実施例1の辞書検索装
置においては、グループIDとしてグループ番号を与え
ているが、グループ番号の代わりに適当な文字または名
前等を付けることもできる。本実施例においては、実施
例1の図2における変換文字定義体4のグループ分類
を、例えば次の〔表1〕のものと置き換える。
【0051】
【表1】
【0052】この〔表1〕は、図2の変換文字定義体4
のメンバ文字の先頭文字を代表文字としたものである。
図2の変換単語辞書7におけるグループ番号もこの代表
文字に置き換えられる。単語「コンピュータ」に対して
はグループID列として「コソヒコータ」が与えられる
こととなる。本実施例のその他の点は、実施例1と変わ
るところはない。また、この辞書検索装置も、前記実施
例2〜4における拡張辞書検索部10に適用できるもの
である。
【0053】〔実施例6〕前述の実施例1および実施例
5の辞書検索装置においては、変換文字定義体4におけ
る類似文字のグループ分類として、1つの文字が1つの
グループに属するとしている。これに対し、1つの文字
i を複数のグループの要素になることを認めることも
できる。
【0054】本実施例においては、実施例1の図2にお
ける変換文字定義体4のグループ分類を、例えば次の
〔表2〕のものと置き換える。
【0055】
【表2】
【0056】この〔表2〕においては、「ク」という文
字は、「グ」「タ」「ダ」と共にグループ番号5の要素
となり、同時に、「ウ」「フ」「7」と共にグループ番
号6の要素となっている。このように1つの文字が複数
のグループの要素になるから、文字−グループID変換
部3では、1つの文字列に対して複数の解を出力するこ
ととなる。しかしながら、類似の関係にない「グ、タ、
ダ」と「ウ、フ、7」を別のグループとすることができ
るから、変換単語辞書7における同一文字グループ番号
列に対する単語の候補数を減少することができる。
【0057】本実施例のその他の点は、実施例1と変わ
るところはない。また、この辞書検索装置も、前記実施
例2〜4における拡張辞書検索部10に適用できるもの
である。 〔実施例7〕前述の実施例1、5、6の辞書検索装置に
おいては、1つの文字に対して1つまたは複数のグルー
プを与えている。これに対し、本実施例では、文字列s
=c i,i+1 ,..., ci+L に対してグループIDgを与
えることを認めるようにする。
【0058】本実施例では、文字−グループID変換部
3の代わりに文字列−グループID変換部3’が使用さ
れる。また、実施例1の図2における変換文字定義体4
のグループ分類を、例えば次の〔表3〕のものと置き換
える。
【0059】
【表3】
【0060】〔表3〕の例では、1つの漢字の「加」
と、2つの片仮名のペアの「カ、ロ」と、2つの漢字の
ペアの「力、口」がグループ番号1に分類されている。
同様に、グループ番号2には、1つの漢字の「仁」と、
2つの片仮名のペアの「イ、ニ」と、1つの片仮名と1
つの漢字のペアの「イ、二」が分類され、グループ番号
3に1つの漢字の「結」と2つの漢字のペアの「糸、
吉」が分類されている。
【0061】この文字列−グループIDの変換の実施方
法としては、Aho-Corasick法を応用することができる。
(Aho,A. and Corasick, M: Efficient String Matchin
g: AnAid to Bibliographic Search, CACM Vol.18,No,6
(1975))すなわち、文字列−グループID変換定義体に
定義されたすべての変換文字列をもとに照合の途中段階
を状態として記憶する図7に示すパターン照合用のオー
トマトンを生成し、オートマトンのある状態で不一致が
起こった時に途中の状態から照合を行えるように遷移を
決定するようにするものである。そして、最終状態に対
して変換するグループIDを定義しておき、最終状態に
達した時にはそのグループIDに変換される。
【0062】このように変換文字定義体4を定義するこ
とにより、OCR装置等の文字認識処理装置が1つの文
字「加」を2つ以上に分解して「カ、ロ」と読み込んだ
り、2つの文字「力口」を1つの文字「加」として読み
込んだ場合であっても、正しい辞書検索が行われること
となる。本実施例のその他の点は、実施例1と変わると
ころはない。また、この辞書検索装置も、前記実施例2
〜4における拡張辞書検索部10に適用できるものであ
るが、前記実施例4の文字認識後処理装置の拡張辞書検
索部10に適用するのに最適なものである。
【0063】〔実施例8〕本実施例では、前記実施例7
をさらに進めて、文字列s=ci,i+1 ,..., c i+L
対してグループID列gi , gj+1,...,gj+k を与える
ことを認めるようにする。本実施例においては、実施例
1の図2における変換文字定義体4のグループ分類を、
例えば次の〔表4〕のものと置き換える。
【0064】
【表4】
【0065】この〔表4〕では、片仮名の「カ」と漢字
の「力」をグループID1に、片仮名の「ロ」と漢字の
「口」をグループID2に、1つの漢字「加」にグルー
プID列1,2を与えている。本実施例では、前記実施
例7と同様に、Aho-Corasick法を応用するが、最終状態
に達したときにはそのグループIDに変換する代わりに
グループID列に変換することもできる。
【0066】本実施例のその他の点は、実施例1と変わ
るところはない。また、この辞書検索装置も、前記実施
例2〜4における拡張辞書検索部10に適用できるもの
であるが、前記実施例4の文字認識後処理装置の拡張辞
書検索部10に適用するのに最適なものである。 〔実施例9〕前述の実施例1、5〜8では、1つの文字
または文字列に対してグループIDまたはグループID
列を与えているが、本実施例では、任意のパターン表現
iに対してグループID列gi , gj+1,...,gj+k
与えることを認めるようにする。
【0067】本実施例では、文字−グループID変換部
3の代わりに文字列−グループID変換部3’が使用さ
れる。この文字列−グループID変換部3’の例として
は、正規表現変換が利用される。また、実施例1の図2
における変換文字定義体4のグループ分類を、例えば次
の〔表5〕のものと置き換える。
【0068】
【表5】
【0069】この〔表5〕のパターン列として示された
「え〜*と」における「*」はメタキャラクタであり、
これは、直前の文字「〜」が0個以上継続することを意
味するものである。このパターン列「え〜*と」を正規
表現変換するとグループID「4,101,20」が得
られる。本実施例によれば、「え〜と」「え〜〜と」…
…を同一グループとして取り扱うことが可能となる。
【0070】本実施例のその他の点は、実施例1と変わ
るところはない。また、この辞書検索装置も、前記実施
例2〜4における拡張辞書検索部10に適用できるもの
である。
【0071】
【発明の効果】本発明によれば、以下のような効果が得
られる。 1.変換文字定義体で定義された文字集合の要素を同一
とみなすことにより、これまで辞書検索できなかった単
語も辞書検索できることとなる。 2.したがって、入力エラーを含む文書に対しても正し
く形態素解析することが可能となる。 3.また、文字を標準化したり、誤った単語を修正した
りすることができる文字列訂正装置を得ることができ
る。 4.文字認識後処理装置の出力の各文字位置での候補文
字をグループで管理することにより、各文字位置での候
補グループ数が少なくなり、候補文字の組合せの数が減
る。これにより、文字認識後処理の速度が向上した文字
認識後処理装置を得ることができる。
【図面の簡単な説明】
【図1】本発明の実施例1の構成図。
【図2】図1の動作を説明する概略図。
【図3】図1の文字−グループID変換部の動作を説明
するフローチャート。
【図4】本発明の実施例2の構成図。
【図5】本発明の実施例3の構成図。
【図6】本発明の実施例4の構成図。
【図7】本発明の実施例7に使用するオートマトンを示
す。
【符号の説明】
1,11…入力部 2…入力文字列変換部 3…文字−グループID変換部 4…変換文字定義体 5…辞書変換部 6…単語辞書 7…変換単語辞書 8…辞書検索部 9,14…出力部 10…拡張辞書検索部 12…文法規則 13…文法チェック部 15…形態素合成部 16…形態素決定部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 9194−5L G06F 15/40 370 J

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 入力部(1)から与えられた入力文字列
    を変換して出力部(9)に出力する辞書検索装置におい
    て、 文字の集合C={c1,c2,...,cn }をいくつかの部分
    集合(Gi ⊂C)に分類し、各部分集合に対してグルー
    プIDを与えた変換文字定義体(4)と、 この変換文字定義体(4)を使って文字列の各文字をグ
    ループIDに置き換える処理を行う文字−グループID
    変換部(3)と、 前記入力部(1)から入力された前記入力文字列を、こ
    の文字−グループID変換部(3)を呼び出すことによ
    って入力グループID列に変換する入力文字列変換部
    (2)と、 前記入力部(1)に出現する意味のある部分文字列であ
    る単語を保持している単語辞書(6)と、 この単語辞書(6)の中に定義されている各単語の表記
    文字列を、前記文字−グループID変換部(3)を呼び
    出すことによって表記グループID列に変換を行う辞書
    変換部(5)と、 この辞書変換部(5)により変換された表記グループI
    Dによって定義された変換単語辞書(7)と、 前記入力文字列変換部(2)で変換された入力グループ
    ID列に対して、前記表記グループIDによって表現さ
    れている変換単語辞書(7)を検索する辞書検索部
    (8)とを有することを特徴とする辞書検索装置。
  2. 【請求項2】 文の解析を行う形態素解析装置におい
    て、 文を入力する入力部(11)と、 請求項1記載の辞書検索装置を有し、前記入力部(1
    1)から出力された文に対して辞書検索を行う拡張辞書
    検索部(10)と、 文法規則(12)と、 この辞書検索結果を前記文法規則(12)と照らし合わ
    せながら形態素解析を行って、辞書情報付きの形態素解
    析結果を出力する処理を行う文法チェック部(13)と
    を具備することを特徴とする形態素解析装置。
  3. 【請求項3】 請求項2記載の形態素解析装置における
    前記文法チェック部(13)と前記出力部(14)の間
    に、前記文法チェック部(13)による形態素解析の結
    果を文に合成して出力部に出力する形態素合成部(1
    5)を設けたことを特徴とする文字列訂正装置。
  4. 【請求項4】 請求項2記載の形態素解析装置におい
    て、文字認識処理装置の認識結果により得た、入力文字
    列の各文字に対して複数の文字候補を持つ候補文字列を
    前記入力部(11)から前記拡張辞書検索部(10)に
    入力し、前記文法チェック部(13)と前記出力部(1
    4)の間に、前記文法チェック部(13)による形態素
    解析の結果から得られた複数の形態素解析候補から、適
    当な評価関数によって候補順位を決定することにより形
    態素解析候補を出力部に出力する形態素決定部(16)
    を設けたことを特徴とする文字認識後処理装置。
  5. 【請求項5】 前記変換文字定義体(4)は、グループ
    IDとしてグループ内の文字を代表する代表文字を設定
    し、前記変換単語辞書(7)は、入力文字列の各文字を
    前記代表文字に置き換えた辞書としたことを特徴とする
    請求項1記載の辞書検索装置。
  6. 【請求項6】 前記変換文字定義体(4)は、1つの文
    字ci を複数のグループの要素になることを認め、これ
    により文字−グループID変換部(3)で複数の解を出
    力することを特徴とする請求項1記載の辞書検索装置。
  7. 【請求項7】 前記変換文字定義体(4)は、文字列s
    =ci , ci+1,...,ci+l に対してグループIDgを与
    えることを認めたことを特徴とする請求項1記載の辞書
    検索装置。
  8. 【請求項8】 前記変換文字定義体(4)は、文字列s
    =ci , ci+1,...,ci+l に対してグループID列g,
    j+1,...,gj+k を与えることを認めることを特徴とす
    る請求項1記載の辞書検索装置。
  9. 【請求項9】 前記変換文字定義体(4)は、任意のパ
    ターン表現ei に対してグループID列g, gj+1,...,
    j+k を与えることを認めることを特徴とする請求項1
    記載の辞書検索装置。
JP5178209A 1993-07-19 1993-07-19 辞書検索装置 Pending JPH0736882A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP5178209A JPH0736882A (ja) 1993-07-19 1993-07-19 辞書検索装置
US08/235,653 US5615378A (en) 1993-07-19 1994-04-29 Dictionary retrieval device
CN94104998A CN1095137C (zh) 1993-07-19 1994-04-29 字典检索装置
KR1019940009402A KR970008023B1 (ko) 1993-07-19 1994-04-30 사전검색장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5178209A JPH0736882A (ja) 1993-07-19 1993-07-19 辞書検索装置

Publications (1)

Publication Number Publication Date
JPH0736882A true JPH0736882A (ja) 1995-02-07

Family

ID=16044492

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5178209A Pending JPH0736882A (ja) 1993-07-19 1993-07-19 辞書検索装置

Country Status (4)

Country Link
US (1) US5615378A (ja)
JP (1) JPH0736882A (ja)
KR (1) KR970008023B1 (ja)
CN (1) CN1095137C (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004094781A (ja) * 2002-09-03 2004-03-25 Konami Co Ltd サーバ装置及びプログラム

Families Citing this family (140)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6978421B1 (en) * 1994-06-19 2005-12-20 Mitsuhiro Aida Handwriting text input system
JP2773652B2 (ja) * 1994-08-04 1998-07-09 日本電気株式会社 機械翻訳装置
JP2817776B2 (ja) * 1995-05-25 1998-10-30 日本電気株式会社 単語変換装置
US5926811A (en) * 1996-03-15 1999-07-20 Lexis-Nexis Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching
US6616703B1 (en) * 1996-10-16 2003-09-09 Sharp Kabushiki Kaisha Character input apparatus with character string extraction portion, and corresponding storage medium
US5907838A (en) * 1996-12-10 1999-05-25 Seiko Epson Corporation Information search and collection method and system
US5970449A (en) * 1997-04-03 1999-10-19 Microsoft Corporation Text normalization using a context-free grammar
JP3842913B2 (ja) * 1998-12-18 2006-11-08 富士通株式会社 文字通信方法及び文字通信システム
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
JP2001325252A (ja) * 2000-05-12 2001-11-22 Sony Corp 携帯端末及びその情報入力方法、辞書検索装置及び方法、媒体
KR20020018326A (ko) * 2000-09-01 2002-03-08 김시환 정보 검색 시스템과 그 방법
US20020093535A1 (en) * 2001-01-17 2002-07-18 Murphy Michael William User interface for character entry using a minimum number of selection keys
US6986106B2 (en) 2002-05-13 2006-01-10 Microsoft Corporation Correction widget
US20030233237A1 (en) * 2002-06-17 2003-12-18 Microsoft Corporation Integration of speech and stylus input to provide an efficient natural input experience
US7137076B2 (en) * 2002-07-30 2006-11-14 Microsoft Corporation Correcting recognition results associated with user input
US7092567B2 (en) * 2002-11-04 2006-08-15 Matsushita Electric Industrial Co., Ltd. Post-processing system and method for correcting machine recognized text
US7634500B1 (en) * 2003-11-03 2009-12-15 Netlogic Microsystems, Inc. Multiple string searching using content addressable memory
US7848573B2 (en) * 2003-12-03 2010-12-07 Microsoft Corporation Scaled text replacement of ink
US7506271B2 (en) * 2003-12-15 2009-03-17 Microsoft Corporation Multi-modal handwriting recognition correction
GB2419432A (en) * 2004-10-20 2006-04-26 Ibm A method and system for creating hierarchical classifiers of software components in natural language processing
US20060149528A1 (en) * 2005-01-05 2006-07-06 Inventec Corporation System and method of automatic Japanese kanji labeling
JP4911028B2 (ja) * 2005-02-24 2012-04-04 富士ゼロックス株式会社 単語翻訳装置、翻訳方法および翻訳プログラム
NO20052966D0 (no) * 2005-06-16 2005-06-16 Lumex As Monsterkodede ordboker
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7353332B2 (en) * 2005-10-11 2008-04-01 Integrated Device Technology, Inc. Switching circuit implementing variable string matching
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7783654B1 (en) 2006-09-19 2010-08-24 Netlogic Microsystems, Inc. Multiple string searching using content addressable memory
US8074172B2 (en) 2007-01-05 2011-12-06 Apple Inc. Method, system, and graphical user interface for providing word recommendations
US7636717B1 (en) 2007-01-18 2009-12-22 Netlogic Microsystems, Inc. Method and apparatus for optimizing string search operations
US8024319B2 (en) * 2007-01-25 2011-09-20 Microsoft Corporation Finite-state model for processing web queries
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8232973B2 (en) 2008-01-09 2012-07-31 Apple Inc. Method, device, and graphical user interface providing word recommendations for text input
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US20100235780A1 (en) * 2009-03-16 2010-09-16 Westerman Wayne C System and Method for Identifying Words Based on a Sequence of Keyboard Events
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US9031831B1 (en) * 2010-01-14 2015-05-12 Abbyy Development Llc Method and system for looking up words on a display screen by OCR comprising a set of base forms of recognized inflected words
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
US9195716B2 (en) * 2013-02-28 2015-11-24 Facebook, Inc. Techniques for ranking character searches
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
CN108009276A (zh) * 2017-12-19 2018-05-08 北京云知声信息技术有限公司 字典搜索方法、系统及比较装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS595380A (ja) * 1982-06-30 1984-01-12 Sharp Corp 情報検索装置
JPS63223962A (ja) * 1987-03-13 1988-09-19 Hitachi Ltd 翻訳装置
JPH02140868A (ja) * 1988-11-22 1990-05-30 Toshiba Corp 機械翻訳システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004094781A (ja) * 2002-09-03 2004-03-25 Konami Co Ltd サーバ装置及びプログラム

Also Published As

Publication number Publication date
KR970008023B1 (ko) 1997-05-20
KR950004036A (ko) 1995-02-17
US5615378A (en) 1997-03-25
CN1097883A (zh) 1995-01-25
CN1095137C (zh) 2002-11-27

Similar Documents

Publication Publication Date Title
JPH0736882A (ja) 辞書検索装置
US7269547B2 (en) Tokenizer for a natural language processing system
US8660834B2 (en) User input classification
KR100630886B1 (ko) 문자 스트링 식별
US4903206A (en) Spelling error correcting system
EP0394633A2 (en) Method for language-independent text tokenization using a character categorization
Chang A new approach for automatic Chinese spelling correction
Coavoux et al. Multilingual lexicalized constituency parsing with word-level auxiliary tasks
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
Tufiş et al. DIAC+: A professional diacritics recovering system
Yang et al. Spell Checking for Chinese.
Wang et al. Chinese-braille translation based on braille corpus
JP2003331214A (ja) 文字認識誤り訂正方法、装置及びプログラム
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
Balasooriya Improving and Measuring OCR Accuracy for Sinhala with Tesseract OCR Engine
JPH08115330A (ja) 類似文書検索方法および装置
JPS62249269A (ja) 文書処理装置
CN115310458A (zh) 一种人名翻译方法、系统、设备及计算机可读存储介质
JP3441546B2 (ja) 文字処理装置及び文字処理装置における変換制御方法
Segert et al. A Computer Program for Analysis of Words According to Their Meaning (Conceptual analysis of Latin equivalents for the comparative dictionary of Semitic languages)
Chen et al. Ambiguous problem investigation in off-line mathematical expression understanding
Geffet et al. Automatic alphabet recognition
JPH0773174A (ja) 日本語処理システム
Kuo An automated mandarin document revision system using both phonetic and radical approaches
Mladenov et al. Integrated system for Japanese word processing

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20020730