JP2002530761A - Improved part-of-speech tagging method and apparatus - Google Patents

Improved part-of-speech tagging method and apparatus

Info

Publication number
JP2002530761A
JP2002530761A JP2000582999A JP2000582999A JP2002530761A JP 2002530761 A JP2002530761 A JP 2002530761A JP 2000582999 A JP2000582999 A JP 2000582999A JP 2000582999 A JP2000582999 A JP 2000582999A JP 2002530761 A JP2002530761 A JP 2002530761A
Authority
JP
Japan
Prior art keywords
speech
tags
term
text
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000582999A
Other languages
Japanese (ja)
Inventor
カールス、アルウィン・ビー
Original Assignee
ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ
カールス、アルウィン・ビー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ, カールス、アルウィン・ビー filed Critical ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ
Publication of JP2002530761A publication Critical patent/JP2002530761A/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Time Recorders, Dirve Recorders, Access Control (AREA)

Abstract

(57)【要約】 テキストの品詞を識別するタグ装置であって、第1出力においてテキスト中の各用語に対する品詞タグを与える第1品詞タガーと、装置出力に結合される出力を有し、かつ、入力を有する専門的品詞タガーのセットとを有するタグ装置。専門的品詞タガーのセットは、そこへの入力において与えられる各用語に関する候補品詞タグのセットを与える。第1出力に結合された例外ハンドラは、テキスト中の各用語に応答して、テキスト中の用語が例外リストに含まれていないならば、品詞タグを第1出力から装置出力へ与える。用語が例外リストに含まれるときは、用語は専門的品詞タガーの入力に与えられる。投票手順を用いて例外リスト上の用語に関して専門的品詞タガーによって生成された候補品詞タグから1つの品詞タグを選択することができる。 (57) [Summary] A tag device for identifying a part of speech of a text, comprising: a first part of speech tagger for providing a part of speech tag for each term in the text at a first output; and an output coupled to the device output; , A set of professional part-of-speech tags with input. The set of professional part-of-speech tags provides a set of candidate part-of-speech tags for each term given in its input. An exception handler coupled to the first output, in response to each term in the text, provides a part of speech tag from the first output to the device output if the term in the text is not included in the exception list. When a term is included in the exception list, the term is given to the input of the professional part of speech tagger. One part-of-speech tag can be selected from candidate part-of-speech tags generated by the professional part-of-speech tagger for terms on the exception list using a voting procedure.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【技術分野】【Technical field】

本発明は、一般にテキストの品詞タグ付けに関し、特に、テキスト中の単語及
び句の文脈上の品詞を明確にすることに関する。
The present invention relates generally to part-of-speech tagging of text, and more particularly to clarifying the contextual parts of speech of words and phrases in text.

【0002】[0002]

【背景技術】[Background Art]

テキスト中の単語及び句の品詞を識別することは、ワードプロセッシングとテ
キストプロセッシング(例えば、校正)、情報検索と自然言語データベース質問
、情報と事実抽出、自然言語解釈、及び機械翻訳の多くの異なる分野において有
用である。品詞を識別し、そして、マルコフ (Markov) モデル、デシジョントリ
ー、コネクショニズム、変形、最隣接、オンライン学習又は最大エントロピータ
グのようなタグを付ける多くの異なる方法が存在する。これらの方法は従来技術
において詳しく説明されている。例えば、Weischedel, R., Meteer, M., Scwart
z, R., Ramshaw, L.及びPalmucci, J.による「見込みモデルを介した不明かつ未
知の単語の処理」、コンピュータ言語(computational Linguistics)1993;B
lack, E., Jelinek, F., Lafferty, J., Mercer, R.及びRoukos, S.による「品
詞を持つテキストのラベル付けに適用するデシジョントリーモデル」、Darpa Wo
rkshop on Speech and Natural Language (Harriman, N.Y., 1992);Schmid, H.
による「ニュートラルネットワークに対する品詞タグ付け」、Proceedings of 1
5th International Conference on Computational Linguistic (COLING) (Yokoh
ama,Japan 1994); Brill, E.による「変形ベースのエラー駆動学習及び自然言
語処理:品詞タグ付けのケーススタディ」コンピュータ言語(computational Lin
guistics)21(4)、1995年12月第543−565頁;Daelemans, W.,
Zavrel, P., Berck, P., Gillis, S.による「MBT:メモリーベースの品詞タ
ガー発生器」、Proceedings of the Fourth Workshop on Vcry Large Corpora,
Copenhagen, Denmark第14−27頁(1996);Ratnaparkhi, A.による「最
大エントロピー品詞タガー」、Proceedings of the First Empirical Methods i
n Natural Language Processing Conference, 5月17−18(ペンシルバニア
大学1996)を参照されたい。これらの文献は参照のためにここに組み入れら
れる。
Identifying the parts of speech of words and phrases in text can be done in many different areas of word processing and text processing (eg, proofreading), information retrieval and natural language database queries, information and fact extraction, natural language interpretation, and machine translation. It is useful in There are many different ways to identify and tag parts of speech, such as Markov models, decision trees, connectionism, transformations, nearest neighbors, online learning or maximum entropy tags. These methods are described in detail in the prior art. For example, Weischedel, R., Meteer, M., Scwart
"Handling Unknown and Unknown Words Through Probabilistic Models" by z, R., Ramshaw, L. and Palmucci, J., Computer Linguistics 1993; B
Lacker, E., Jelinek, F., Lafferty, J., Mercer, R. and Roukos, S., "A Decision Tree Model for Labeling Text with Part of Speech", Darpa Wo.
rkshop on Speech and Natural Language (Harriman, NY, 1992); Schmid, H.
"Part-of-Speech Tagging for Neutral Networks" by Proceedings of 1
5th International Conference on Computational Linguistic (COLING) (Yokoh
ama, Japan 1994); "Transformation-based error-driven learning and natural language processing: a case study of part-of-speech tagging" by Brill, E. Computer language (computational Lin
guistics) 21 (4), December 1995, pages 543-565; Daelemans, W.,
"MBT: Memory-Based Part-of-Speech Tagger Generator" by Zavrel, P., Berck, P., Gillis, S., Proceedings of the Fourth Workshop on Vcry Large Corpora,
Copenhagen, Denmark, pp. 14-27 (1996); Ratnaparkhi, A., "Max Entropy Part-of-Speech Taggers," Proceedings of the First Empirical Methods i.
n See Natural Language Processing Conference, May 17-18 (University of Pennsylvania 1996). These documents are incorporated herein by reference.

【0003】 従来技術の最も正確な品詞タガーでさえも多少のエラーが残る結果であった。
改善された効率及び精度はより大きな、よりゆっくりした品詞タガーによって得
られるかもしれない。品詞タガーの精度を改善するために開発された別の方法が
Brill, E., Wu, J.による「改善された語彙の明確化のためのクラシファイアー
コンビネーション」、Proceedings of the 19th International Conference on
Computational Linguistics and Association for Computational Linguistics
(COLING-ACL) (カナダ、モントリオール、1998)及びvan Halteren, H., Z
avrel, J., Daelemans, W.による「システムコンビネーションによる改善された
データ駆動ワードクラスのタグ付け」、Proceedings of the 19th Internationa
l Conference on Computational Linguistics and Association for Computatio
nal Linguistics (COLING-ACL) (カナダ、モントリオール、1998)、第4
91−497頁に説明されている。これらの文献は参照のため、ここに組み入れ
られる。上の文献に説明される方法は、4つの異なる品詞タガーを備える全テキ
ストを処理することを含む。品詞タグは次に、選択手順を用いて、4つの品詞タ
ガーの結果から選択される。そういった方法は精度を改善するが、それはコンピ
ュータの速度と複雑性を要する犠牲を伴う。
[0003] Even the most accurate part-of-speech taggers of the prior art resulted in some errors.
Improved efficiency and accuracy may be obtained with a larger, slower part-of-speech tagger. Another method developed to improve the accuracy of part-of-speech tags is
"Classifier Combinations for Improved Vocabulary Clarification" by Brill, E., Wu, J., Proceedings of the 19th International Conference on
Computational Linguistics and Association for Computational Linguistics
(COLING-ACL) (Montreal, Canada, 1998) and van Halteren, H., Z
"Improved Data-Driven Word Class Tagging with System Combinations" by avrel, J., Daelemans, W., Proceedings of the 19th International
l Conference on Computational Linguistics and Association for Computatio
nal Linguistics (COLING-ACL) (Montreal, Canada, 1998), 4th
It is described on pages 91-497. These documents are incorporated herein by reference. The method described in the above document involves processing the entire text with four different part-of-speech tags. Part-of-speech tags are then selected from the results of the four part-of-speech tags using a selection procedure. While such methods improve accuracy, they come at the expense of computer speed and complexity.

【0004】[0004]

【発明の開示】DISCLOSURE OF THE INVENTION

本発明の態様によれば、テキスト中の用語の品詞を識別するタグ付け装置は、
第1品詞タガーと、専門的品詞タガーのセットと、例外ハンドラとを含む。本明
細書及び特許請求の範囲において用いられるように、語「セット」は少なくとも
1つのメンバを含むセットのことを意味する。第1品詞タガーは、第1出力にお
いて、テキスト中の各用語に対して品詞タグを与える。本明細書及び特許請求の
範囲において用いられるように、語「用語」は単語を意味し、随意に単語又は句
を意味する。換言すれば、タグ付け装置はテキスト中の各単語に対して働き、随
意にタガーはテキスト中の句に対しても同様に働く。専門的品詞タガーのセット
は、装置の出力に結合される出力を有し、また、入力を有し、該入力において提
供された各用語に対する候補品詞タグを専門的品詞タガーのセットに与える。第
1出力に結合された例外ハンドラは、テキスト中の用語が例外リストに含まれて
いないならば、テキスト中の各用語に応答して、品詞タグを第1出力から装置出
力へ与える。テキスト中の用語が例外リストに含まれていれば、その用語は専門
的品詞タガーのセットへ与えられる。
According to an aspect of the present invention, a tagging device that identifies a part of speech of a term in a text comprises:
Includes a first part-of-speech tagger, a set of specialized part-of-speech tags, and an exception handler. As used herein and in the claims, the term "set" means a set that includes at least one member. The first part-of-speech tagger gives a part-of-speech tag to each term in the text in the first output. As used herein and in the claims, the term "term" means a word, and optionally a word or phrase. In other words, the tagging device works for each word in the text, and optionally the tagger works for phrases in the text as well. The set of professional part-of-speech tags has an output coupled to the output of the device and has an input, providing a set of professional part-of-speech tags for each term provided at the input. An exception handler coupled to the first output provides a part of speech tag from the first output to the device output in response to each term in the text if the term in the text is not included in the exception list. If a term in the text is included in the exception list, the term is given to a set of technical part-of-speech tags.

【0005】 別の態様において、専門的品詞タガーのセットは複数の専門的品詞タガーを含
み、タグ付け装置は専門的品詞タガーの出力に結合されるセレクタをさらに含む
。このセレクタはまた装置出力に結合される出力を有する。セレクタは、投票手
順を用いて候補品詞タグのセットから品詞タグを選択してその選択した品詞タグ
を装置出力に与える。
In another aspect, the set of professional part-of-speech tags includes a plurality of professional part-of-speech tags, and the tagging device further includes a selector coupled to an output of the professional part-of-speech tags. This selector also has an output that is coupled to the device output. The selector selects a part-of-speech tag from the set of candidate part-of-speech tags using a voting procedure, and provides the selected part-of-speech tag to the device output.

【0006】 さらに別の態様において、専門的品詞タガーのセットの少なくとも1つのメン
バは例外リスト上の用語を処理するために最適化される。例外リストは、第1品
詞タガーによって生成される所定パーセントのエラーの原因である用語を含むこ
とができる。
[0006] In yet another aspect, at least one member of the set of professional part-of-speech tags is optimized to handle terms on the exception list. The exception list may include terms that are responsible for a predetermined percentage of errors generated by the first part of speech tagger.

【0007】 さらに別の態様において、前記投票手順は、専門的品詞タガーのセット内の各
専門的品詞タガーの所定の特性に基づく候補品詞タグのセットから各特有の候補
品詞タグに関する得点を発生させる。投票手順は最高得点を有する品詞タグを選
択することができる。タグ付け装置は、第1品詞タガーに連結されテキストを1
セットの単語トークンに解析するトークナイザーを更に含むことができる。
In yet another aspect, the voting procedure generates a score for each unique candidate part-of-speech tag from a set of candidate part-of-speech tags based on predetermined characteristics of each professional part-of-speech tagger in the set of professional part-of-speech tags. . The voting procedure may select the part of speech tag with the highest score. The tagging device is connected to the first part of speech tagger and
The system may further include a tokenizer that parses the set into word tokens.

【0008】 代替態様において、テキスト内の用語の品詞を識別する方法は、(a)第1品
詞タガーを用いてテキスト内の各用語の品詞を決定し、(b)例外リスト内に含
まれるテキスト中の各用語を識別し、(c)例外リスト内に含まれていない各用
語に関してステップ(a)から品詞タグを装置出力として与え、(d)専門的品
詞タガーのセットを用いて例外リスト中に含まれる各用語に対して候補品詞タグ
のセットを決定するステップを含んでなる。さらに別の態様において、専門的品
詞タガーのセットが複数のタガーを含む前記方法は、さらに、(e)投票手順を
用いて候補品詞タグのセットから品詞タグを選択し、(f)ステップ(e)にお
いて選択された品詞タグを例外リスト内に含まれる各用語に関して装置出力とし
て与えるステップを含む。
In an alternative embodiment, the method of identifying the part of speech of a term in the text comprises: (a) determining the part of speech of each term in the text using a first part of speech tagger; and (b) determining the part of speech of the term in the exception list. (C) give the part-of-speech tag from step (a) as a device output for each term not included in the exception list, and (d) use the set of professional part-of-speech tags in the exception list. And determining a set of candidate part-of-speech tags for each term included in. In yet another aspect, the method wherein the set of professional part-of-speech tags includes a plurality of taggers, further comprising: (e) selecting a part-of-speech tag from the set of candidate part-of-speech tags using a voting procedure; 2) providing the part of speech tag selected in (1) as a device output for each term included in the exception list.

【0009】 さらに別の態様において、専門的品詞タガーのセットの少なくとも1つのメン
バは例外リスト上の処理用語に関して最適化される。例外リストは、ステップ(
a)によって生成される所定パーセントのエラーの原因となる用語を含むことが
できる。上記態様において、投票手順は、専門的品詞タガーのセット内の各専門
的品詞タグの所定の特性に基づく点数を候補品詞タグのセット各特有の候補品詞
タグに対して発生させる。候補手順は最高得点を有する候補品詞タグを選択する
ことができる。方法は、ステップ(a)の前に、さらにテキストを単語トークン
に解析することを含むことができる。
[0009] In yet another aspect, at least one member of the set of professional part-of-speech tags is optimized for processing terms on the exception list. The exception list consists of steps (
It may include terms that cause a predetermined percentage of errors generated by a). In the above aspect, the voting procedure generates a score based on a predetermined characteristic of each specialized part of speech tag in the set of specialized part of speech tags for each unique candidate part of speech tag set of candidate part of speech tags. The candidate procedure can select the candidate part-of-speech tag with the highest score. Prior to step (a), the method may further include parsing the text into word tokens.

【0010】 別の代替態様において、命令によってエンコードされるディジタルストレージ
メディアは、コンピュータに装填されると、上に論じたいずれの装置にもなるこ
とができる。
In another alternative, the digital storage media encoded by the instructions, when loaded into a computer, can be any of the devices discussed above.

【0011】[0011]

【発明の実施形態】DETAILED DESCRIPTION OF THE INVENTION

本発明は、添付図面と共に、以下に説明する詳細な説明を参照することにより
より容易に理解される。
The invention will be more readily understood by reference to the following detailed description, taken in conjunction with the accompanying drawings.

【0012】 図1は、本発明の実施形態のタグ装置のブロック線図を示す。テキストは、テ
キスト入力10において入力され、次に、トークナイザー11を用いて単語トー
クンに解析される。トークナイザー11は、従来技術(例えば、米国特許第5,
721,939号、「テキストをトークン化する方法及び装置」又は米国特許第
4,991,094号、「文字カテゴリー分類を用いた言語独立テキストトーク
ン化方法」)で用いられているもののいずれかにすることができる。これらの特
許の内容は、参照のためにここに組み入れられる。トークン化されたテキストは
次にタグ装置によって処理されるようにテキストバッファ内に置かれる。第1品
詞タガー12はトークン化されたテキストを処理する。第1品詞タガー12は、
マルコフ (Markov) モデル、デシジョントリー、コネクショニズム、変形、最隣
接、オンライン学習又は最大エントロピーといったような当該分野において一般
に用いられているものの1つとすることができる。第1品詞タガーは、早くて正
確な品詞タガーであることが好ましい。発明の1つの実施態様において、第1品
詞タガー12は、アブニーのような(Abney-like)最終状態オートマトン(FS
A)によって実行されるブリル(Brill)変形タガーである(コンピュータ言語(
computational Linguistics)21(4)、1995年12月第543−565頁
、Brill, E.の「変形ベースのエラー駆動学習及び自然言語処理:品詞タグ付け
のケーススタディ」を参照)。この文献は参照のためにここに組み入れられる。
従って、第1品詞タガー12は、ブリル品詞タグ付け変形規則をテキストの第1
品詞タグ付きコーパスに対して発生されることによって生成される。
FIG. 1 is a block diagram of a tag device according to an embodiment of the present invention. The text is entered at a text input 10 and then parsed into word tokens using a tokenizer 11. The tokenizer 11 is a conventional type (for example, US Pat.
721,939, "Methods and apparatus for tokenizing text" or U.S. Pat. No. 4,991,094, "Methods for language-independent text tokenization using character category classification"). can do. The contents of these patents are incorporated herein by reference. The tokenized text is then placed in a text buffer for processing by the tag device. The first part of speech tagger 12 processes the tokenized text. The first part of speech tagger 12 is
It may be one of those commonly used in the art, such as Markov model, decision tree, connectionism, transformation, nearest neighbor, online learning or maximum entropy. The first part of speech tagger is preferably a fast and accurate part of speech tagger. In one embodiment of the invention, the first part-of-speech tagger 12 is an Abney-like final state automaton (FS).
A) is a Brill transform tagger executed by (computer language (
Computational Linguistics) 21 (4), December 1995, pp. 543-565, Brill, E., "Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study of Part-of-Speech Tagging"). This document is incorporated herein by reference.
Therefore, the first part-of-speech tagger 12 uses the Brill part-of-speech tagging transformation rule
Generated by being generated for a part of speech tagged corpus.

【0013】 例外ハンドラ13は第1品詞タガー12に結合されている。処理された用語が
例外リスト上で発見されないならば、第1品詞タガーによって識別された品詞タ
グはタグ装置の出力19となる。例外ハンドラ13が例外リスト上で発見された
用語に出会うと、その用語は、例外ハンドラ13に結合された専門的品詞タガー
14−17のセットへ送られてさらに処理される。専門的品詞タガーのセットは
n個のタガーを含むことができ、ここで、nは1以上の数である。図1の実施形
態では、専門的品詞タガーのセットは4つの専門的品詞タガー14−17を有す
る。
An exception handler 13 is coupled to the first part of speech tagger 12. If the processed term is not found on the exception list, the part-of-speech tag identified by the first part-of-speech tagger will be the output 19 of the tag device. When the exception handler 13 encounters a term found on the exception list, the term is sent to a set of specialized part-of-speech tags 14-17 coupled to the exception handler 13 for further processing. The set of professional part-of-speech tags can include n taggers, where n is a number greater than or equal to one. In the embodiment of FIG. 1, the set of specialized part of speech taggers has four specialized part of speech taggers 14-17.

【0014】 好ましくは、例外リストは、第1品詞タガー12を用いて不正確なタグ付け結
果となることが知られている用語を含む。例外リストに含まれる用語は、テキス
トの第2品詞タグ付きコーパスに対して第1品詞タガー12を走査させて第1品
詞タガー12の残りのエラーを識別することによって識別される。第1品詞タガ
ーによって生成された最も高頻度に発生するエラーの原因となる用語を識別する
ためにエラーに関連する用語による品詞タグ付けエラーの頻度分布を発生させる
。第1品詞タガー12によって生成される所定パーセントのエラーの原因となる
用語は例外リストに含まれる。1実施態様において、所定のパーセントは90%
である。
Preferably, the exception list includes terms that are known to result in incorrect tagging using the first part-of-speech tagger 12. Terms included in the exception list are identified by scanning the first part-of-speech tagger 12 against a second corpus-tagged corpus of text to identify remaining errors in the first part-of-speech tagger 12. Generate a frequency distribution of part-of-speech tagging errors with terms related to the errors to identify the terms that cause the most frequently occurring errors generated by the first part-of-speech tagger. Terms that cause a predetermined percentage of errors generated by the first part of speech tagger 12 are included in the exception list. In one embodiment, the predetermined percentage is 90%
It is.

【0015】 各専門的品詞タガーは、上に説明した例外リストを用いて発生させられる。各
専門的品詞タガー14−17は当該分野において一般的に知られたものである。
上に論じたように、品詞タガーのいくつかの例は、マルコフモデル、デシジョン
トリー、コネクショニズム、変形、最隣接、オンライン学習及び最大エントロピ
ーである。専門的品詞ガターは各タガーのスタイルに適した方法によって生成さ
れるが、各専門的品詞タガーは例外リストに含まれる用語に関して特に訓練され
る。好ましくは、各専門的品詞タガーは異なるタイプのものである。1実施形態
において、専門的品詞タガー14−17はトリグラム(三重字)、ブリル変形、
メモリーベース学習及び最大エントロピー品詞タガーである。
Each technical part of speech tagger is generated using the exception list described above. Each specialized part of speech tagger 14-17 is generally known in the art.
As discussed above, some examples of part-of-speech tags are Markov models, decision trees, connectionism, transformations, nearest neighbors, online learning, and maximum entropy. Although the professional part-of-speech gutter is generated in a manner appropriate for each tagger's style, each professional part-of-speech tagger is specifically trained on terms included in the exception list. Preferably, each technical part of speech tagger is of a different type. In one embodiment, the professional part of speech taggers 14-17 are trigrams, trills, brill variants,
Memory-based learning and maximum entropy part-of-speech tagger.

【0016】 もしも専門的品詞タガーのセットに1つの専門的品詞タガーが存在するとき、
その専門的品詞タガーの出力は、例外リストに含まれるテキストの各用語に対す
る装置出力19である。上に論じたように、例外リストに発見されない各用語に
関して、装置出力19は第1品詞タガー12の出力となる。
If there is one specialized part-of-speech tagger in the set of specialized part-of-speech tags,
The output of the technical part-of-speech tagger is a device output 19 for each term in the text included in the exception list. As discussed above, for each term not found in the exception list, device output 19 is the output of first part of speech tagger 12.

【0017】 品詞タガーのセットが図1に示すように複数の専門的品詞タガーからなるなら
ば、各天文的品詞タガー14−17は、専門的品詞タガーのセットによって処理
された用語に関する1つの候補品詞タグを生成する。専門的品詞タガーのセット
によって生成された各候補品詞タグはセレクタ18に与えられる。セレクタ18
は投票手順を用いて候補品詞タグの1つを選択する。図2は本発明の実施形態に
従う投票手順を示すブロック線図である。ブロック12において、各専門的品詞
タガーは用語を処理して候補品詞を識別する。ブロック21において、投票手順
は専門的品詞タガーによって識別された特有の候補品詞タグのリストを創成する
。次にブロック22において、各特有の候補品詞タグに対する得点が計算される
If the set of part-of-speech tags is comprised of a plurality of specialized part-of-speech tags as shown in FIG. 1, each astronomical part-of-speech tagger 14-17 is a candidate for the term processed by the set of specialized part-of-speech tags. Generate a part of speech tag. Each candidate part-of-speech tag generated by the set of specialized part-of-speech tags is provided to selector 18. Selector 18
Selects one of the candidate part-of-speech tags using a voting procedure. FIG. 2 is a block diagram illustrating a voting procedure according to an embodiment of the present invention. At block 12, each specialized part of speech tagger processes the term to identify candidate parts of speech. At block 21, the voting procedure creates a list of unique candidate part of speech tags identified by the professional part of speech taggers. Next, at block 22, a score is calculated for each unique candidate part of speech tag.

【0018】 1実施形態において、投票手順は、各専門的品詞タガーのために精度及びリコ
ールに関して事前に計算された値を用いて、専門的品詞タガーのセットによって
生成された各特有の候補品詞タグに関する得点を計算する(ブロック22)。精
度は、品詞タグによってXのタグ付けがされかつまた訓練コーパス中でXのタグ
付けがなされたトークンのパーセントである。リコールは訓練コーパス中におい
てXのタグ付けがなされかつまた品詞タガーによってXのタグ付けがされたトー
クンのパーセントであると定義される。例えば、単語「that」は、等位接続詞(
CS)、限定詞(DT)、修飾子(QL)、あるいはWH代名詞(WPR)のよ
うないくつかの品詞を有する。専門的品詞タガーが50個の単語「that」にタグ
DTを生成し、そのうちの45個が訓練コーパスによって正しいと識別されると
、精度は0.90(=45/50)である。訓練コーパス中にDTのタグを付け
られた50個の「that」があり、専門的タガーがそのうちの48個にDTのタグ
を付けるならば、リコールは0.96(=48/50)である。
In one embodiment, the voting procedure uses a pre-computed value for accuracy and recall for each specialized part-of-speech tagger to generate each unique candidate part-of-speech tag generated by the set of specialized part-of-speech tags. A score is calculated (block 22). Accuracy is the percentage of tokens tagged X by part of speech tags and also tagged X in the training corpus. Recall is defined as the percentage of tokens tagged X in the training corpus and also tagged X by part of speech taggers. For example, the word "that"
It has several parts of speech, such as CS), determiner (DT), qualifier (QL), or WH pronoun (WPR). If the professional part-of-speech tagger generates tags DT for the 50 words "that" and 45 of them are identified as correct by the training corpus, the accuracy is 0.90 (= 45/50). If there are 50 "that" tagged DT in the training corpus and the professional tagger tags 48 of them DT, the recall is 0.96 (= 48/50) .

【0019】 上に説明したように、ブロック22において各特有の候補品詞タグに関する得
点を決定するために精度及びリコールを使用することができる。特定の候補品詞
タグを生成した各専門的品詞タガーの精度をその特定の候補品詞タグを生成した
各専門的品詞タガーの(1リコール)に等しい量に付け加えることによって候補
品詞タグに関する得点を計算することができる。最も高い蓄積した得点を有する
候補品詞タグは、ブロック23において、専門的品詞タガーのセットによって処
理された用語に関する品詞タグとして選択される。
As explained above, accuracy and recall can be used at block 22 to determine a score for each unique candidate part of speech tag. Compute a score for a candidate part-of-speech tag by adding the accuracy of each professional part-of-speech tagger that generated the particular candidate part-of-speech tag to an amount equal to (one recall) of each specialized part-of-speech tagger that generated the particular candidate part-of-speech tag be able to. The candidate part-of-speech tag with the highest accumulated score is selected at block 23 as the part-of-speech tag for the term processed by the set of professional part-of-speech tags.

【0020】 表1は、トリグラム(三重字)、ブリル変形、メモリーベース学習及び最大エ
ントロピー品詞タガーからなる専門的品詞タガーのセットを用いた単語「that」
に関する例の結果を示す。候補品詞タグは限定詞(DT)及び等位接続詞(CS
)として定められる。
Table 1 shows the word "that" using a set of specialized part-of-speech tags that consist of trigrams, brill transforms, memory-based learning, and maximum entropy part-of-speech tags.
The results of an example for Candidate part-of-speech tags consist of a determiner (DT) and a coordinate conjunction (CS)
).

【0021】 表1 任意の場合の用語「that」に関する専門的タガーの例の結果TABLE 1 Results of professional tagger examples for the term "that" in any case

【表1】 [Table 1]

【0022】 候補品詞タグ「DT」及び「CS」に関する得点計算は以下の通り。 得点DT=0.83+0.88+(1−0.93)+(1−0.89)=1.8
9 得点CS=0.87+0.91+(1−0.87)+(1−0.93)=1.9
8 この例において、候補品詞タグCSはより高い得点を有し、単語「that」に関す
る品詞タグとして選択される。
The score calculation for the candidate part-of-speech tags “DT” and “CS” is as follows. Score DT = 0.83 + 0.88 + (1-0.93) + (1-0.89) = 1.8
9 score CS = 0.87 + 0.91 + (1-0.87) + (1-0.93) = 1.9
8. In this example, the candidate part-of-speech tag CS has a higher score and is selected as the part-of-speech tag for the word "that".

【0023】 図1に戻り、タグ装置の出力19は例外リスト上に発見されるテキスト中の各
用語に関するセレクタ18の出力となる。さもなければ、タグ装置の出力19は
第1品詞タガー12の出力となる。専門的品詞タガー14−17を第1品詞タガ
ー12と組み合わせて用いることにより第1品詞タガー12の能力及び精度が改
善される。このことは、各専門的品詞タガー14−17を訓練して第1品詞タガ
ー12に関して最大エラー率を生じる用語の精度を改善することによって達成さ
れる。
Returning to FIG. 1, the output 19 of the tag device is the output of the selector 18 for each term in the text found on the exception list. Otherwise, the output 19 of the tag device is the output of the first part of speech tagger 12. The use of the specialized part-of-speech tagger 14-17 in combination with the first part-of-speech tagger 12 improves the performance and accuracy of the first part-of-speech tagger 12. This is accomplished by training each specialized part-of-speech tagger 14-17 to improve the accuracy of the term that produces the highest error rate for the first part-of-speech tagger 12.

【0024】 図3は、本発明の実施形態に従いテキスト中の用語の品詞を識別する方法の制
御の流れを示す。ブロック30におけるテキストの入力はブロック31で単語ト
ークンに解析される。トークン化されたテキストは次にブロック32においてテ
キストバッファに置かれ、ブロック33において第1品詞タガーによって処理さ
れる。ブロック34において、処理された用語が例外リスト上で発見されないな
らば、ブロック37での出力は第1品詞タガーによって生成された品詞タグとな
る。例外リストについては図1に関して上に説明した。処理された用語が例外リ
スト上に見つけられれば、その用語は専門的品詞タガーによってブロック35に
おいて処理される。専門的品詞タガーのセットは候補品詞タグのセットを生成す
る。専門的品詞タガーのセットが単に1つの専門的品詞タガーを含むならば、ブ
ロック37における出力は、ブロック35において決定されるように専門的品詞
タガーの出力となる。専門的品詞タガーのセットが複数の専門的品詞タガーを含
むならば、ブロック36において投票手順が使用されて候補品詞タグのセットか
ら1つの品詞タグが選択される。本発明の実施形態に関する投票手順は図2に関
して上に説明された。ブロック27において、例外リスト上で見いだされたテキ
スト中の用語に関する出力はステップ36で選択された品詞タグとなる。
FIG. 3 illustrates a control flow of a method for identifying the part of speech of a term in a text according to an embodiment of the present invention. The input of text in block 30 is parsed into word tokens in block 31. The tokenized text is then placed in the text buffer at block 32 and processed at block 33 by the first part of speech tagger. At block 34, if the processed term is not found on the exception list, the output at block 37 will be the part of speech tag generated by the first part of speech tagger. The exception list has been described above with respect to FIG. If the processed term is found on the exception list, the term is processed in block 35 by the professional part of speech tagger. The set of professional part-of-speech tags creates a set of candidate part-of-speech tags. If the set of professional part-of-speech tags includes only one professional part-of-speech tagger, the output at block 37 will be the output of the professional part-of-speech tagger as determined at block 35. If the set of professional part-of-speech tags includes multiple professional part-of-speech tags, a voting procedure is used at block 36 to select one part-of-speech tag from the set of candidate part-of-speech tags. The voting procedure for an embodiment of the present invention has been described above with respect to FIG. In block 27, the output for the term in the text found on the exception list is the part of speech tag selected in step.

【0025】 本発明の種々の例示的な実施形態を説明してきたが、本発明の真の範囲から逸
脱することなく発明のいくつかの利点を達成する種々の変更又は変形が可能であ
ることは当業者にとって明白である。これらの変形及びその他の明白な変更は特
許請求の範囲によってカバーされることを意図する。
While various exemplary embodiments of the present invention have been described, it is to be understood that various changes or modifications may be made to achieve some advantages of the invention without departing from the true scope of the invention. It will be apparent to those skilled in the art. These variations and other obvious modifications are intended to be covered by the appended claims.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明の実施態様のタグ装置のブロック線図である。FIG. 1 is a block diagram of a tag device according to an embodiment of the present invention.

【図2】 本発明の実施態様の図1に示すタグ装置によって用いられる投票手順を示すブ
ロック線図である。
FIG. 2 is a block diagram showing a voting procedure used by the tag device shown in FIG. 1 according to the embodiment of the present invention.

【図3】 本発明の実施態様の品詞タグ付け方法の流れを示すブロック線図である。FIG. 3 is a block diagram showing a flow of a part-of-speech tagging method according to the embodiment of the present invention.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 カールス、アルウィン・ビー アメリカ合衆国、マサチューセッツ州 02468、バーリントン、イースト・クイノ ベクイン・ロード 20 Fターム(参考) 5B091 AA15 CA02 CC02 CC15 ──────────────────────────────────────────────────続 き Continued on the front page (72) Inventor Carls, Alwin Bee, United States 02468, Mass., Burlington, East Quino Bequin Road 20F Term (Reference) 5B091 AA15 CA02 CC02 CC15

Claims (21)

【特許請求の範囲】[Claims] 【請求項1】 テキストの品詞を識別するタグ付け装置であって、 第1出力において、前記テキスト中の各用語に関する品詞を与える第1品詞タ
ガーと、 装置出力に結合される出力を有し、かつまた、入力を有する専門的品詞タガー
のセットであって、該専門的品詞タガーのセットへの入力において与えられた各
用語に関して候補品詞タグのセットを与える専門的品詞タガーのセットと、 前記第1出力に結合された例外ハンドラであって、前記テキスト中の各用語に
応答して、前記テキスト中の前記用語が例外リスト中に含まれないならば、品詞
タグを前記第1出力から前記装置出力へ与え、前記用語が前記例外リスト中に含
まれるならば、前記用語を前記専門的品詞タガーの入力へ与える例外ハンドラと
を、 含んでなるタグ付け装置。
1. A tagging device for identifying a part of speech of a text, comprising: at a first output, a first part of speech tagger providing a part of speech for each term in the text; and an output coupled to the device output. And a set of professional part-of-speech taggers having an input, the set of professional part-of-speech tags providing a set of candidate part-of-speech tags for each term given in the input to the set of professional part-of-speech tags. An exception handler coupled to one output, wherein, in response to each term in the text, if the term in the text is not included in an exception list, a part of speech tag is removed from the first output to the device. An exception handler to provide to the output and, if the term is included in the exception list, to provide the term to the input of the technical part-of-speech tagger.
【請求項2】 請求項1に記載の装置であって、前記専門的品詞タガーのセ
ットは複数の専門的品詞タガーを含み、 前記専門的品詞タガーのセットの出力に結合されたセレクタであって、前記装
置出力に結合された出力を有し、投票手順を用いて前記候補品詞タグのセットか
ら品詞タグを選択して該選択した品詞タグを前記装置出力において与えるセレク
タをさらに含んでなる装置。
2. The apparatus of claim 1, wherein the set of specialized part-of-speech tags includes a plurality of specialized part-of-speech tags, and wherein the selector is coupled to an output of the set of specialized parts-of-speech tags. An apparatus having an output coupled to the device output, further comprising a selector for selecting a part of speech tag from the set of candidate part of speech tags using a voting procedure and providing the selected part of speech tag at the device output.
【請求項3】 請求項1に記載の装置であって、前記専門的品詞タガーのセ
ットの少なくとも1つのメンバは前記例外リスト上の用語を処理するために最適
化されている装置。
3. The apparatus according to claim 1, wherein at least one member of the set of technical part-of-speech tags is optimized for processing terms on the exception list.
【請求項4】 請求項1に記載の装置であって、前記例外リストは、前記第
1品詞タガーによって生成される所定パーセントのエラーの原因となる用語を含
んでなる装置。
4. The apparatus of claim 1, wherein the exception list comprises terms that cause a predetermined percentage of errors generated by the first part-of-speech tagger.
【請求項5】 請求項2に記載の装置であって、前記投票手順は、前記専門
的品詞タガーのセットの各専門的品詞タガーの所定の特性に基づいて前記候補品
詞タグのセットの各特有の品詞タグに関する得点を発生させる装置。
5. The apparatus according to claim 2, wherein the voting procedure comprises the step of: determining a characteristic of each of the set of candidate part-of-speech tags based on a predetermined characteristic of each of the set of specialized part-of-speech tags. A device that generates a score for a part of speech tag of a person.
【請求項6】 請求項5に記載の装置であって、前記投票手順は最高得点の
候補品詞タグを選択する装置。
6. The apparatus according to claim 5, wherein the voting step selects a candidate part-of-speech tag with the highest score.
【請求項7】 請求項1に記載の装置であって、前記第1品詞タガーに結合
され前記テキストを単語トークンのセットに解析するトークナイザーを更に含ん
でなる装置。
7. The apparatus of claim 1, further comprising a tokenizer coupled to the first part-of-speech tagger to parse the text into a set of word tokens.
【請求項8】 テキストの品詞を識別する方法であって、 (a) 第1品詞タガーを用いて前記テキスト中の各用語の品詞を決定し、 (b) 例外リストに含まれる前記テキスト中の各用語を識別し、 (c) 前記例外リストに含まれない各用語に関して前記ステップ(a)から
の前記品詞タグを装置出力として与え、 (d) 専門的品詞タガーのセットを用いて、前記例外リスに含まれる前記テ
キスト中の各用語に関して候補品詞タグのセットを決定する、 ステップを含んでなる方法。
8. A method for identifying a part of speech of a text, comprising: (a) determining a part of speech of each term in the text using a first part of speech tagger; and (b) determining a part of speech of the text included in an exception list. (C) providing the part-of-speech tag from step (a) as a device output for each term not included in the exception list; and (d) using the set of specialized part-of-speech tags to define the exception. Determining a set of candidate part-of-speech tags for each term in the text included in the squirrel.
【請求項9】 請求項8に記載の方法であって、前記専門的品詞タガーのセ
ットは複数のタガーを含み、さらに次のステップ、 (e) 投票手順を用いて前記候補品詞タグのセットから1つの品詞タグを選
択し、及び (f) 前記例外リストに含まれる前記テキスト中の各用語に関して前記ステ
ップ(e)において選択された品詞タグを前記装置出力として与える、 を含んでなる方法。
9. The method of claim 8, wherein the set of professional part-of-speech tags includes a plurality of taggers, and further comprising: (e) using a voting procedure from the set of candidate part-of-speech tags. Selecting one part-of-speech tag; and (f) providing the part-of-speech tag selected in step (e) as the device output for each term in the text included in the exception list.
【請求項10】 請求項8に記載の方法であって、前記専門的品詞タガーの
セットの少なくとも1つのメンバは前記例外リスト上の用語を処理するために最
適化されている方法。
10. The method of claim 8, wherein at least one member of the set of professional part-of-speech tags is optimized for processing terms on the exception list.
【請求項11】 請求項8に記載の方法であって、前記例外リストは、前記
ステップ(a)によって生成される所定のパーセントのエラーの原因となる用語
を含んでなる方法。
11. The method of claim 8, wherein the exception list comprises a predetermined percentage of error-causing terms generated by step (a).
【請求項12】 請求項8に記載の方法であって、前記投票手順は、前記専
門的品詞タガーのセットの各専門的品詞タガーの所定の特性に基づいて、前記候
補品詞タグのセットから各特有の候補品詞タグに関する得点を発生させる方法。
12. The method of claim 8, wherein the voting procedure comprises: determining each of the set of candidate part-of-speech tags from the set of candidate part-of-speech tags based on predetermined characteristics of each of the set of specialized part-of-speech tags. How to generate scores for unique candidate part-of-speech tags.
【請求項13】 請求項8に記載の方法であって、前記投票手順は最高得点
を有する前記品詞タグを選択する方法。
13. The method of claim 8, wherein the voting procedure selects the part of speech tag with the highest score.
【請求項14】 請求項8に記載の方法であって、前記ステップ(a)の前
に前記テキストを単語トークンに解析するステップを更に含んでなる方法。
14. The method of claim 8, further comprising parsing the text into word tokens before step (a).
【請求項15】 コンピュータに装填されるときにテキストの品詞を識別す
る装置となることができる、命令によってエンコードされるディジタルストレー
ジメディアであって、 第1出力において、前記テキスト中の各用語に関する品詞を与える第1品詞タ
ガーと、 装置出力に結合される出力を有し、かつまた、入力を有する専門的品詞タガー
のセットであって、該専門的品詞タガーのセットへの入力において与えられた各
用語に関して候補品詞タグのセットを与える専門的品詞タガーのセットと、 前記第1出力に結合された例外ハンドラであって、前記テキスト中の各用語に
応答して、前記テキスト中の前記用語が例外リスト中に含まれないならば、品詞
タグを前記第1出力から前記装置出力へ与え、前記用語が前記例外リスト中に含
まれるならば、前記用語を前記専門的品詞タガーの入力へ与える例外ハンドラと
を、 含んでなるストレージメディア。
15. A digital storage medium encoded with instructions, which can be a device for identifying the part of speech of a text when loaded into a computer, wherein, at a first output, a part of speech for each term in the text. A first part-of-speech tagger having an output coupled to the device output and also having an input, wherein each of the sets of specialized part-of-speech taggers provided at the input to the set of specialized part-of-speech taggers A set of professional part-of-speech tags that provide a set of candidate part-of-speech tags for terms; and an exception handler coupled to the first output, wherein in response to each term in the text, the term in the text is an exception. If not included in the list, a part of speech tag is provided from the first output to the device output, and the term is included in the exception list. An exception handler that applies the term to the input of the professional part of speech tagger.
【請求項16】 請求項15に記載のストレージメディアであって、前記専
門的品詞タガーのセットは複数の専門的品詞タガーを含み、 前記専門的品詞タガーのセットの出力に結合されたセレクタであって、前記装
置出力に結合された出力を有し、投票手順を用いて前記候補品詞タグのセットか
ら品詞タグを選択して該選択した品詞タグを前記装置出力において与えるセレク
タをさらに含んでなるストレージメディア。
16. The storage medium of claim 15, wherein the set of specialized part-of-speech tags includes a plurality of specialized part-of-speech tags and is a selector coupled to an output of the set of specialized parts-of-speech tags. A storage having an output coupled to the device output, further comprising a selector for selecting a part of speech tag from the set of candidate part of speech tags using a voting procedure and providing the selected part of speech tag at the device output. media.
【請求項17】 請求項15に記載のストレージメディアであって、前記専
門的品詞タガーのセットの少なくとも1つのメンバは前記例外リスト上の用語を
処理するために最適化されているストレージメディア。
17. The storage medium of claim 15, wherein at least one member of the set of professional part-of-speech tags is optimized to handle terms on the exception list.
【請求項18】 請求項15に記載のストレージメディアであって、前記例
外リストは、前記第1品詞タガーによって生成される所定パーセントのエラーの
原因となる用語を含んでなるストレージメディア。
18. The storage medium of claim 15, wherein the exception list comprises a term causing a predetermined percentage of errors generated by the first part of speech tagger.
【請求項19】 請求項16に記載のストレージメディアであって、前記投
票手順は、前記専門的品詞タガーのセットの各専門的品詞タガーの所定の特性に
基づいて前記候補品詞タグのセットの各特有の品詞タグに関する得点を発生させ
るストレージメディア。
19. The storage medium according to claim 16, wherein the voting procedure comprises: determining each of the set of candidate part-of-speech tags based on predetermined characteristics of each of the set of specialized part-of-speech tags. Storage media that generates scores for unique part-of-speech tags.
【請求項20】 請求項19に記載のストレージメディアであって、前記投
票手順は最高得点の候補品詞タグを選択するストレージメディア。
20. The storage medium according to claim 19, wherein the voting step selects a candidate part-of-speech tag with the highest score.
【請求項21】 請求項15に記載のストレージメディアであって、前記第
1品詞タガーに結合され前記テキストを単語トークンのセットに解析するトーク
ナイザーを更に含んでなるストレージメディア。
21. The storage medium of claim 15, further comprising a tokenizer coupled to the first part of speech tagger for parsing the text into a set of word tokens.
JP2000582999A 1998-11-17 1999-11-17 Improved part-of-speech tagging method and apparatus Withdrawn JP2002530761A (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10877898P 1998-11-17 1998-11-17
US60/108,778 1998-11-17
PCT/US1999/027210 WO2000030070A2 (en) 1998-11-17 1999-11-17 Method and apparatus for improved part-of-speech tagging

Publications (1)

Publication Number Publication Date
JP2002530761A true JP2002530761A (en) 2002-09-17

Family

ID=22323993

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000582999A Withdrawn JP2002530761A (en) 1998-11-17 1999-11-17 Improved part-of-speech tagging method and apparatus

Country Status (5)

Country Link
EP (1) EP1131812A2 (en)
JP (1) JP2002530761A (en)
AU (1) AU3789900A (en)
CA (1) CA2351404A1 (en)
WO (1) WO2000030070A2 (en)

Families Citing this family (119)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7035788B1 (en) 2000-04-25 2006-04-25 Microsoft Corporation Language model sharing
US6910004B2 (en) 2000-12-19 2005-06-21 Xerox Corporation Method and computer system for part-of-speech tagging of incomplete sentences
US7269544B2 (en) 2003-05-20 2007-09-11 Hewlett-Packard Development Company, L.P. System and method for identifying special word usage in a document
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE202011111062U1 (en) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Device and system for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9201955B1 (en) 2010-04-15 2015-12-01 Google Inc. Unambiguous noun identification
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
WO2014071330A2 (en) 2012-11-02 2014-05-08 Fido Labs Inc. Natural language processing system and method
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
CN105027197B (en) 2013-03-15 2018-12-14 苹果公司 Training at least partly voice command system
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
CN110442699A (en) 2013-06-09 2019-11-12 苹果公司 Operate method, computer-readable medium, electronic equipment and the system of digital assistants
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101809808B1 (en) 2013-06-13 2017-12-15 애플 인크. System and method for emergency calls initiated by voice command
DE112014003653B4 (en) 2013-08-06 2024-04-18 Apple Inc. Automatically activate intelligent responses based on activities from remote devices
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
EP3480811A1 (en) 2014-05-30 2019-05-08 Apple Inc. Multi-command single utterance input method
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. Far-field extension for digital assistant services
US10956670B2 (en) 2018-03-03 2021-03-23 Samurai Labs Sp. Z O.O. System and method for detecting undesirable and potentially harmful online behavior

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6140672A (en) * 1984-07-31 1986-02-26 Hitachi Ltd Processing system for dissolution of many parts of speech
US5680628A (en) * 1995-07-19 1997-10-21 Inso Corporation Method and apparatus for automated search and retrieval process

Also Published As

Publication number Publication date
WO2000030070A2 (en) 2000-05-25
CA2351404A1 (en) 2000-05-25
EP1131812A2 (en) 2001-09-12
WO2000030070A3 (en) 2000-09-08
AU3789900A (en) 2000-06-05

Similar Documents

Publication Publication Date Title
JP2002530761A (en) Improved part-of-speech tagging method and apparatus
JP6813591B2 (en) Modeling device, text search device, model creation method, text search method, and program
US6115683A (en) Automatic essay scoring system using content-based techniques
Bikel et al. An algorithm that learns what's in a name
KR102256240B1 (en) Non-factoid question-and-answer system and method
Lita et al. Truecasing
US5937422A (en) Automatically generating a topic description for text and searching and sorting text by topic using the same
EP2317507B1 (en) Corpus compilation for language model generation
JP2001523019A (en) Automatic recognition of discourse structure in text body
Branco et al. Evaluating Solutions for the Rapid Development of State-of-the-Art POS Taggers for Portuguese.
JP3682529B2 (en) Summary automatic evaluation processing apparatus, summary automatic evaluation processing program, and summary automatic evaluation processing method
CN108538286A (en) A kind of method and computer of speech recognition
US20110066659A1 (en) Systems and methods for creating structured data
CN110096572B (en) Sample generation method, device and computer readable medium
CN109255022B (en) Automatic abstract extraction method for network articles
KR20020072140A (en) Automatic Text Categorization Method Based on Unsupervised Learning, Using Keywords of Each Category and Measurement of the Similarity between Sentences
KR100481598B1 (en) Apparatus and method for analyzing compounded morpheme
JP3992348B2 (en) Morphological analysis method and apparatus, and Japanese morphological analysis method and apparatus
KR100481580B1 (en) Apparatus for extracting event sentences in documents and method thereof
JP2004355550A (en) Natural sentence retrieval device, and its method and program
KR100452024B1 (en) Searching engine and searching method
JPH02112069A (en) Automatic summarizing system
Brants Estimating HMM topologies
KR20040018008A (en) Apparatus for tagging part of speech and method therefor
JPH07175808A (en) Natural language processor

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070206