JPH01224796A - スピーチ部分の決定方法 - Google Patents
スピーチ部分の決定方法Info
- Publication number
- JPH01224796A JPH01224796A JP1024794A JP2479489A JPH01224796A JP H01224796 A JPH01224796 A JP H01224796A JP 1024794 A JP1024794 A JP 1024794A JP 2479489 A JP2479489 A JP 2479489A JP H01224796 A JPH01224796 A JP H01224796A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- word
- probability
- frequency
- probabilities
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims description 68
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000009499 grossing Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 230000001755 vocal effect Effects 0.000 claims description 2
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 238000002224 dissection Methods 0.000 abstract description 18
- 210000003127 knee Anatomy 0.000 description 11
- 238000012545 processing Methods 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 210000003484 anatomy Anatomy 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000001915 proofreading effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 206010048232 Yawning Diseases 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003014 reinforcing effect Effects 0.000 description 2
- 241000167854 Bourreria succulenta Species 0.000 description 1
- 241000545744 Hirudinea Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 235000019693 cherries Nutrition 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 239000003292 glue Substances 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000002414 leg Anatomy 0.000 description 1
- 101150006217 lex1 gene Proteins 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/04—Speaking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
発明の分野
本発明はスピーチ部分決定の方法と、名詞句解剖の中間
方法を含み、そして、スピーチ合成、スピーチ認識、ラ
イターの訓練、校正1割出し及びデータ検索を含む、ス
ピーチ部分決定の結果の利用方法に関する。
方法を含み、そして、スピーチ合成、スピーチ認識、ラ
イターの訓練、校正1割出し及びデータ検索を含む、ス
ピーチ部分決定の結果の利用方法に関する。
&1至豆I
特に、スピーチの異なる部分(複数)として使用するこ
とができるワードの場合、スピーチ部分を決定する能力
は英語の使用の場合に多くの種々の問題に関連している
ということが長い間認識されている0例えば、ピッチ、
継続期間及びエネルギーを含むスピーチの「強勢」はワ
ードのスピーチの特定部分及びそれらの文における順序
に依存する。従って、スピーチの合成には、人間のスピ
ーチのように響く結果を発生するために入力された記載
又は非言葉のテキストのスピーチ部分の解析が必要とな
る。
とができるワードの場合、スピーチ部分を決定する能力
は英語の使用の場合に多くの種々の問題に関連している
ということが長い間認識されている0例えば、ピッチ、
継続期間及びエネルギーを含むスピーチの「強勢」はワ
ードのスピーチの特定部分及びそれらの文における順序
に依存する。従って、スピーチの合成には、人間のスピ
ーチのように響く結果を発生するために入力された記載
又は非言葉のテキストのスピーチ部分の解析が必要とな
る。
更に、スピーチ部分の自動決定は自動的なスピーチ認識
、コンピュータの補助による方法を用いてのライターの
教育及び訓練、ワード処理のワークステーションで発生
される書類の編集及び校正、書類の割出し及びデータベ
ースからのワード依存データの種々の形状の検索におい
て重要な役割を演じ得る。
、コンピュータの補助による方法を用いてのライターの
教育及び訓練、ワード処理のワークステーションで発生
される書類の編集及び校正、書類の割出し及びデータベ
ースからのワード依存データの種々の形状の検索におい
て重要な役割を演じ得る。
例えば、これらの使用の幾つかはAT&T’5Writ
er’s Workbench商標の種々の形式で見
ることができる。又、1988年1月、The At
1antic MonthlyのBarbara
Wallaffによる論文「The Literat
e ComputerJ、pp、64ff、特にペー
ジ68、最後の2つのパラグラフを参照。割出しに対す
るスピーチ部分の関係は1986年4月1日にC,L、
Rayeに対し発行された米国特許第4.58チ、21
8号に見ることができる。
er’s Workbench商標の種々の形式で見
ることができる。又、1988年1月、The At
1antic MonthlyのBarbara
Wallaffによる論文「The Literat
e ComputerJ、pp、64ff、特にペー
ジ68、最後の2つのパラグラフを参照。割出しに対す
るスピーチ部分の関係は1986年4月1日にC,L、
Rayeに対し発行された米国特許第4.58チ、21
8号に見ることができる。
これまで、スピーチ部分の自動決定の2つの主な方法が
文献で述べられており、そして、ある程度使用されてき
た。その第1は問題の特定状態を検出するように設計さ
れた多種類の「特別(adhoe)4規則に依存してい
る。これらの規則は、例えば、スピーチ部分を予測する
ワードの終りの使用又はその何らかの改変に関するもの
であってもよい。スピーチ部分決定のいくつかの特別規
則はUNIXrM Operating Syst
em−c’動作するWriter’s Workbe
nch商標のアプリケーションプログラムで使用されて
いる。これらのルールは、それらが旨く解決することが
できる状態において非常に制限的であり、そして、基本
的な単一性を欠く傾向がある。これらの技術はBe1l
Te1ephone Laboratories
、Incorp。
文献で述べられており、そして、ある程度使用されてき
た。その第1は問題の特定状態を検出するように設計さ
れた多種類の「特別(adhoe)4規則に依存してい
る。これらの規則は、例えば、スピーチ部分を予測する
ワードの終りの使用又はその何らかの改変に関するもの
であってもよい。スピーチ部分決定のいくつかの特別規
則はUNIXrM Operating Syst
em−c’動作するWriter’s Workbe
nch商標のアプリケーションプログラムで使用されて
いる。これらのルールは、それらが旨く解決することが
できる状態において非常に制限的であり、そして、基本
的な単一性を欠く傾向がある。これらの技術はBe1l
Te1ephone Laboratories
、Incorp。
二±、No、81、におけるり、L、Cherryによ
るrPARTs−A System f。
るrPARTs−A System f。
r Asigning Word C1asse
s to English TextJに記載さ
れている。
s to English TextJに記載さ
れている。
より大きな基礎的な単一性を潜在的に持つ第2の主な方
法は英国、University ofLancas
ter、1983年ICAMENews、Vo l 、
7、pp、13〜33におい−(G、Leech外によ
る論文rThe Automatic Tagg
i rhg of theLOB Cor
pus」に記載された「nグラム」技術である。ここに
記載された技術の一部はスピーチの次々の部分の起りそ
うな組み合せに関する特定の規則に基づく、特定の先行
又は後続のワードのスピーチ部分の現在の最良の選択に
スピーチの割当て部分を依存させる。この解析の場合、
種々のり規則も使用されるので、全体として、この方法
は依然として望ましい精度には至らない、更に、この方
法は有機的な仕方では諸費の確率を模擬しない。
法は英国、University ofLancas
ter、1983年ICAMENews、Vo l 、
7、pp、13〜33におい−(G、Leech外によ
る論文rThe Automatic Tagg
i rhg of theLOB Cor
pus」に記載された「nグラム」技術である。ここに
記載された技術の一部はスピーチの次々の部分の起りそ
うな組み合せに関する特定の規則に基づく、特定の先行
又は後続のワードのスピーチ部分の現在の最良の選択に
スピーチの割当て部分を依存させる。この解析の場合、
種々のり規則も使用されるので、全体として、この方法
は依然として望ましい精度には至らない、更に、この方
法は有機的な仕方では諸費の確率を模擬しない。
上記の技術は、上記の考慮のため及び結果が失望させる
ものだったために当業界の研究者の間には大した興味を
抱かせなかった。
ものだったために当業界の研究者の間には大した興味を
抱かせなかった。
全く、どの「nグラム」技術も貧弱な結果を生じるであ
ろうと考えられていた。それは、その技術が、文の有り
得る構造を充分広く見又は全体的に見ることができない
からである。一方、文のスピーチ部分を解析する場合に
人間の精神がとる全体的な見方の種類をコンピュータ内
に頑丈にプログラムすることは不可能であった。これに
は、1980年米国マサチューセッツ州、キャンプリッ
ジのMIT Pressにより発行されたM。
ろうと考えられていた。それは、その技術が、文の有り
得る構造を充分広く見又は全体的に見ることができない
からである。一方、文のスピーチ部分を解析する場合に
人間の精神がとる全体的な見方の種類をコンピュータ内
に頑丈にプログラムすることは不可能であった。これに
は、1980年米国マサチューセッツ州、キャンプリッ
ジのMIT Pressにより発行されたM。
Marcusによる本、Δ Theory oユ照、
従って、「nグラム」ワードの発生頻度の解析と対照さ
れる、「nグラム」型スピーチ部分の決定は、別の研究
の場合に使用される完全に「タグ付き」テキストのより
大きな体部を発生するに役立つようなタスクに大いに限
定されている。このために、結果は非常に有能な人間の
介在によって訂正されなければならない。
従って、「nグラム」ワードの発生頻度の解析と対照さ
れる、「nグラム」型スピーチ部分の決定は、別の研究
の場合に使用される完全に「タグ付き」テキストのより
大きな体部を発生するに役立つようなタスクに大いに限
定されている。このために、結果は非常に有能な人間の
介在によって訂正されなければならない。
それにも関わらず、上に最初に述べた全ての用途におい
て、容易に適用することができるように、「nグラム]
技術のように比較的簡単な技術により高度の確率でスピ
ーチ部分を識別し得ることが望ましい。
て、容易に適用することができるように、「nグラム]
技術のように比較的簡単な技術により高度の確率でスピ
ーチ部分を識別し得ることが望ましい。
発明の要約
本発明の一つの特徴によれば、スピーチ部分は個々のワ
ードの語彙の確率(probabi 1itieS)と
規格化された3つのワードの文脈の確率との積を最適化
することによりメツセージのワードにスピーチ部分が割
り当てられる。規格化は含まれる2つのワードの文脈の
確率を使用する。(文の終点どうしの間の複数の空間を
含む)文の終点、区切点及び低頻度で発生するワードは
語りの確率を割り当てられ、そして、そうでない場合は
、それらがあたかもワードであるかのように処理される
ので、前のnグラムのスピーチ部分の割り当て及び特別
(ad hoc)規則の前の使用の場合に遭遇する不
連続は回避される傾向がある。この技術の一般性はそれ
により確立される。
ードの語彙の確率(probabi 1itieS)と
規格化された3つのワードの文脈の確率との積を最適化
することによりメツセージのワードにスピーチ部分が割
り当てられる。規格化は含まれる2つのワードの文脈の
確率を使用する。(文の終点どうしの間の複数の空間を
含む)文の終点、区切点及び低頻度で発生するワードは
語りの確率を割り当てられ、そして、そうでない場合は
、それらがあたかもワードであるかのように処理される
ので、前のnグラムのスピーチ部分の割り当て及び特別
(ad hoc)規則の前の使用の場合に遭遇する不
連続は回避される傾向がある。この技術の一般性はそれ
により確立される。
本発明の他の特徴によれば、以前割当られたスピーチ部
分をワードが有しているメツセージは、その名詞句をス
ピーチ合成用のそれらの使用を容易にする方法で識別し
ている。この名詞句の解剖は又他の用途をもつもであっ
てもよい。特に名詞句の解剖方法は、ワードのすべての
開始又は終における名詞句の開始及終を最初に割当てて
最低の確率の割当を除去することによりこの割当を除徐
に除去し、ついに非常に高い確率の非帰納的割当のみが
残るようになる非常に蓋然性ある方法である。非帰納的
割当とは、名詞句内に部分的又は全体的に存在する名詞
句の割当が保持されないということを意味する。
分をワードが有しているメツセージは、その名詞句をス
ピーチ合成用のそれらの使用を容易にする方法で識別し
ている。この名詞句の解剖は又他の用途をもつもであっ
てもよい。特に名詞句の解剖方法は、ワードのすべての
開始又は終における名詞句の開始及終を最初に割当てて
最低の確率の割当を除去することによりこの割当を除徐
に除去し、ついに非常に高い確率の非帰納的割当のみが
残るようになる非常に蓋然性ある方法である。非帰納的
割当とは、名詞句内に部分的又は全体的に存在する名詞
句の割当が保持されないということを意味する。
あるいは又、この本発明の特徴の方法は他の名詞句内で
完全に起るいくつかの高効率の名詞句を保持することも
できる。これはこの割当が、例えば、スピーチ合成にお
いて有用であるからである。
完全に起るいくつかの高効率の名詞句を保持することも
できる。これはこの割当が、例えば、スピーチ合成にお
いて有用であるからである。
常に除去されるある名詞句の割当は(例えば、文の始ま
りのところで)対応する始まりのない終又は(例えば文
の終において〕終のない始まりであるが、本方法はさら
に名詞句の始め及終の低確率での割当を除去し、または
別の表現でいえば、最高の確率の割当のみを保持する。
りのところで)対応する始まりのない終又は(例えば文
の終において〕終のない始まりであるが、本方法はさら
に名詞句の始め及終の低確率での割当を除去し、または
別の表現でいえば、最高の確率の割当のみを保持する。
未発明の補助的な特徴によれば、他の低確率の名詞句は
始から終までメツセージの各文を反復的に走査し、各走
査において始めと終よりなる各対”ごとにそれらの確率
を計算し、文の領域について前に得た最高の確率に近い
又はこの確率より上の積でこれらの組合せを保持するこ
とにより除去され、又は少なくとも他の高確立の名詞句
とは矛盾しなくなる。
始から終までメツセージの各文を反復的に走査し、各走
査において始めと終よりなる各対”ごとにそれらの確率
を計算し、文の領域について前に得た最高の確率に近い
又はこの確率より上の積でこれらの組合せを保持するこ
とにより除去され、又は少なくとも他の高確立の名詞句
とは矛盾しなくなる。
本発明の更に他の特徴によれば、本スピーチ部分割当方
法の出力は本名詞句解剖方法への入力としてもよい。こ
の文脈では両方法において使用される最大可能性最適化
技術は相互に補強しあう傾向がある。これは単独で各方
法が従来技術の方法に比較して性能が優れているからで
ある。
法の出力は本名詞句解剖方法への入力としてもよい。こ
の文脈では両方法において使用される最大可能性最適化
技術は相互に補強しあう傾向がある。これは単独で各方
法が従来技術の方法に比較して性能が優れているからで
ある。
本発明に更に他の特徴によれば、本スピーチ部分割当方
法の出力は本名詞句解剖方法への入力としてもよい、こ
の文脈では両方法において使用される最大可能性最適化
技術は相互に補強しあう傾向がある。これは単独で各方
法が従来技術の方法に比較して性能が優れているからで
ある。
法の出力は本名詞句解剖方法への入力としてもよい、こ
の文脈では両方法において使用される最大可能性最適化
技術は相互に補強しあう傾向がある。これは単独で各方
法が従来技術の方法に比較して性能が優れているからで
ある。
本発明の他の特徴及び利点は図面と共に以下の詳細な説
明を読むことにより明らかとなろう。
明を読むことにより明らかとなろう。
例示的な実施例の衣1
illの方法では、例示のために、メツセージ読み取ら
れ、そして電子的な形で記憶されていたテキストメツセ
ージであったと仮定する。第1の段階では、ブロック1
1で示したように1文づつ記憶テキストを読むこととな
る。この段階では文の境界を決定することが必要である
。このためには多くの公知の技術が存在するが、どの終
止符も文を終らせるという最初の仮定をし、そして、終
止符が更に使用されたかも知れないということを本方法
が続いて示すときにはその文とその結果を放棄したい。
れ、そして電子的な形で記憶されていたテキストメツセ
ージであったと仮定する。第1の段階では、ブロック1
1で示したように1文づつ記憶テキストを読むこととな
る。この段階では文の境界を決定することが必要である
。このためには多くの公知の技術が存在するが、どの終
止符も文を終らせるという最初の仮定をし、そして、終
止符が更に使用されたかも知れないということを本方法
が続いて示すときにはその文とその結果を放棄したい。
いずれにしても、この方法は各文を終りから始めて処理
しはじめる。
しはじめる。
続く段階は3つの一般的な以下の段階にグループ別けす
ることができる。ワードのトークン化(ブロック12)
: 文の終りから始めてスピーチ部分の語粂の確率の計算(
ブロック13)、及び もちろん1文脈上のスピーチ部分の確率を最適化しくブ
ロック14)、一般的な最終段階(15)でスピーチ部
分の解析の多くの考えられる用途のどれに対してもその
結果を適用することである。
ることができる。ワードのトークン化(ブロック12)
: 文の終りから始めてスピーチ部分の語粂の確率の計算(
ブロック13)、及び もちろん1文脈上のスピーチ部分の確率を最適化しくブ
ロック14)、一般的な最終段階(15)でスピーチ部
分の解析の多くの考えられる用途のどれに対してもその
結果を適用することである。
これらの一般的な段階は以下に説明するように、多くの
更に詳細な段階に分けることができる。
更に詳細な段階に分けることができる。
ワードのトークン化においては、スピーチ部分の解析に
対する通常の言語学的試みの小さくはあるが重要ないく
つかの改変をする。それにも関わらず、便宜上、198
2年HOught OnMifflin Co、出版
のW、Ne1sonFrancis外によるrFreq
uencyAnalysis of Englis
hUsageJなる題名の木のrList ofTa
gsJ頁6〜8で述べられたと同じスピーチ部分の名称
を使用する。これらは本例の理解に役立つときは常に本
明細書で綴り返される。
対する通常の言語学的試みの小さくはあるが重要ないく
つかの改変をする。それにも関わらず、便宜上、198
2年HOught OnMifflin Co、出版
のW、Ne1sonFrancis外によるrFreq
uencyAnalysis of Englis
hUsageJなる題名の木のrList ofTa
gsJ頁6〜8で述べられたと同じスピーチ部分の名称
を使用する。これらは本例の理解に役立つときは常に本
明細書で綴り返される。
トークン化は区切り点及びかっこのようなワードといく
つかの非ワードの識別を含む、更に、Franc i
S外による本の基礎を形成したようなテキストのタグ付
き体部(テキストの先行体部は普通rBrown C
orpusJと呼ぶ)に新しい組の空白スペースの頻度
を発生するために各文の終止符の後に2つの空白空間を
割当ることが重要であるということが解った。このプロ
セスに関わるトークンの種類は文の実際のワードと文の
終りが得られたというプロセスを知らせる構造表示子で
ある。これらの構造表示子には、例えば、終止符に関す
る機械読み取り可能文字のような文末表示子、テキスト
のワードと共に原稿、フィールド又はファイルに記憶さ
れた対応のフォーマット形成文字により示されるヘディ
ング又はパラグラブ表示子、及びファイルの縛り表示子
がある。
つかの非ワードの識別を含む、更に、Franc i
S外による本の基礎を形成したようなテキストのタグ付
き体部(テキストの先行体部は普通rBrown C
orpusJと呼ぶ)に新しい組の空白スペースの頻度
を発生するために各文の終止符の後に2つの空白空間を
割当ることが重要であるということが解った。このプロ
セスに関わるトークンの種類は文の実際のワードと文の
終りが得られたというプロセスを知らせる構造表示子で
ある。これらの構造表示子には、例えば、終止符に関す
る機械読み取り可能文字のような文末表示子、テキスト
のワードと共に原稿、フィールド又はファイルに記憶さ
れた対応のフォーマット形成文字により示されるヘディ
ング又はパラグラブ表示子、及びファイルの縛り表示子
がある。
少し前を見ると、文の各最終ワードはその終止符及び続
く空白部分に対する確率と共に測定される文脈の確率を
有するということが解る。これらの3つは「3グラム」
を形成し、従って、確率の解析は「スピーチの特定部分
としてのこのワード゛が文をどの程度終らせるだろうか
?」という問題を調査することになる。この場合、この
位置における終止符を観察する文脈の確率は非常に高く
(はぼ1 、0) 、そして、文脈上の空白の確率は1
.0である。いずれにしても、これらの確率は規格化さ
れた確率の分子と分母の両方で同一であるので、結果と
しての文脈の確率は、文の終りにあるスピーチの主題部
分を見るまさに測定された確率であり、テキストの総体
から表に作ることができ、そして、コンピュータの永久
記憶装置に記憶することができる統計値である。
く空白部分に対する確率と共に測定される文脈の確率を
有するということが解る。これらの3つは「3グラム」
を形成し、従って、確率の解析は「スピーチの特定部分
としてのこのワード゛が文をどの程度終らせるだろうか
?」という問題を調査することになる。この場合、この
位置における終止符を観察する文脈の確率は非常に高く
(はぼ1 、0) 、そして、文脈上の空白の確率は1
.0である。いずれにしても、これらの確率は規格化さ
れた確率の分子と分母の両方で同一であるので、結果と
しての文脈の確率は、文の終りにあるスピーチの主題部
分を見るまさに測定された確率であり、テキストの総体
から表に作ることができ、そして、コンピュータの永久
記憶装置に記憶することができる統計値である。
ブロック12に関連して述べたように、観察されるワー
ドと文字をトークン化した後に、本方法は次のごとく発
生頻度に依存するスピーチ部分の文脈上の確率(スピー
チ部分iを与えられたワードjを観察する確率)を計算
する。もしも問題の全てのワードの全ての意味がBro
wnCo rpusにおける合理的に高い周波数で現れ
るならば、その計算は、スピーチの部分に関わらずその
全発生頻度により割られる、特定のスピーチ部分として
のワードの観察された発生頻度の単なる商となろう。
ドと文字をトークン化した後に、本方法は次のごとく発
生頻度に依存するスピーチ部分の文脈上の確率(スピー
チ部分iを与えられたワードjを観察する確率)を計算
する。もしも問題の全てのワードの全ての意味がBro
wnCo rpusにおける合理的に高い周波数で現れ
るならば、その計算は、スピーチの部分に関わらずその
全発生頻度により割られる、特定のスピーチ部分として
のワードの観察された発生頻度の単なる商となろう。
本発明では1次のごとく低発生頻度のワード又は文字に
ついてはこの計算を取り換える。Zifの法則の下では
、どれだけテキストを見ようとも、わずか数回のみ現れ
るワードの大きな足部分が常に存在するということを考
える。BrownCorpusでは例えば、40.00
0個のワードが5回以下現れる。もしもy awnのよ
うなワードが名詞として1回、動詞として1同視れるな
らば、そのワードが形容詞である確率は何であるか?こ
れはより多くの情報なしには云うことは不可能である。
ついてはこの計算を取り換える。Zifの法則の下では
、どれだけテキストを見ようとも、わずか数回のみ現れ
るワードの大きな足部分が常に存在するということを考
える。BrownCorpusでは例えば、40.00
0個のワードが5回以下現れる。もしもy awnのよ
うなワードが名詞として1回、動詞として1同視れるな
らば、そのワードが形容詞である確率は何であるか?こ
れはより多くの情報なしには云うことは不可能である。
幸にも、辞書はある程度この問題を緩和するに役立つ、
辞書における可能性の頻度のカウントに1つのtheを
加える0例えば、yawnは辞書には名詞か又は動詞の
いずれかとして偶然リストされる。従って、可能性は緩
和される。この場合、可能性は変らないままである。平
滑の前後共y awnは50%の回数で名詞と評価され
、その残りの回数で動詞として評価される。
辞書における可能性の頻度のカウントに1つのtheを
加える0例えば、yawnは辞書には名詞か又は動詞の
いずれかとして偶然リストされる。従って、可能性は緩
和される。この場合、可能性は変らないままである。平
滑の前後共y awnは50%の回数で名詞と評価され
、その残りの回数で動詞として評価される。
yawnが形容詞である見込みはない。
ある他の場合には、平滑化により大きな差が生じる。今
ワードのcansを考える。このワードはBrown
Corpusでは複数の名詞として5回現れ、そして
、動詞としては現れない0語量(及びその形態論的ルー
チン)は幸運にも両方の確率を与える。従って、訂正さ
れた評価ではCan5は複数名詞として6/7回現れ、
そして、動詞として1/7回現れる。
ワードのcansを考える。このワードはBrown
Corpusでは複数の名詞として5回現れ、そして
、動詞としては現れない0語量(及びその形態論的ルー
チン)は幸運にも両方の確率を与える。従って、訂正さ
れた評価ではCan5は複数名詞として6/7回現れ、
そして、動詞として1/7回現れる。
従って、割線材料、完全な辞書に従って、スピーチの各
存在しそうな部分として各観察された発生頻度に「1」
を加え、そして、そこから語彙の確率を計算する。
存在しそうな部分として各観察された発生頻度に「1」
を加え、そして、そこから語彙の確率を計算する。
このワードについて本発明の確率研究木を構成し始める
ために、評価され正規化された語量の確率を、埋ち、ス
ピーチ部分Zを与えられたスピーチ部分Yを観察する「
2グラム」頻度によって割算され、すでに決定された後
続のスピーチ部分YとZを与えられたスピーチ部分Xを
観察する頻度を語量の確率に掛算する。この後者の2つ
のデータはFranc i s外によりこれらの人々の
本で言及されたすでにタグ付きの総体から表に作ること
ができる。この表に作られたデータはコンピュータメモ
リに記憶される。
ために、評価され正規化された語量の確率を、埋ち、ス
ピーチ部分Zを与えられたスピーチ部分Yを観察する「
2グラム」頻度によって割算され、すでに決定された後
続のスピーチ部分YとZを与えられたスピーチ部分Xを
観察する頻度を語量の確率に掛算する。この後者の2つ
のデータはFranc i s外によりこれらの人々の
本で言及されたすでにタグ付きの総体から表に作ること
ができる。この表に作られたデータはコンピュータメモ
リに記憶される。
それが有り得る1つおきのスピーチ部分ごとに主題のワ
ードに関する上記の方法の繰り返しを開始し、前の組の
計算から最大の確率のみを保持する0文の最後のワード
の手前に進む前に、最後のワードに対する最大の成果の
確率に到達した。
ードに関する上記の方法の繰り返しを開始し、前の組の
計算から最大の確率のみを保持する0文の最後のワード
の手前に進む前に、最後のワードに対する最大の成果の
確率に到達した。
このプロセスについては2つのことをすでに観察するこ
とができる。先ず、積に使用される語彙の確率は連続体
に沿って存在するが、Leech外の文献で使用された
ように3つの任意割当値の内の1つのものではない、第
2に、数学の応用は、実際には、文の終りに存在するこ
とが分るワードの場合には些細な事のように見えるかも
しれないが、重要な点はそれがどこでも使用される同一
の数学であるということである。
とができる。先ず、積に使用される語彙の確率は連続体
に沿って存在するが、Leech外の文献で使用された
ように3つの任意割当値の内の1つのものではない、第
2に、数学の応用は、実際には、文の終りに存在するこ
とが分るワードの場合には些細な事のように見えるかも
しれないが、重要な点はそれがどこでも使用される同一
の数学であるということである。
更に完全で特定な例を与え始める場合には、確率の評価
がFranci s外により言及されては゛いるが上記
の解析には含まれていないタグ付きのBrown C
orpusでの訓練により得られたということを記憶し
ておく、それは割当られ、そして、手で苦労してチエツ
クされたスピーチ部分タグを持つ約1.000.000
個のワードの総体である。
がFranci s外により言及されては゛いるが上記
の解析には含まれていないタグ付きのBrown C
orpusでの訓練により得られたということを記憶し
ておく、それは割当られ、そして、手で苦労してチエツ
クされたスピーチ部分タグを持つ約1.000.000
個のワードの総体である。
本方法の処理は本来厳密に局部的なものであり、そして
、−数的には、例えば、助動詞の可能性あるものの使用
を決定するために名詞句の両側を調べる方法は有してい
ないということを考えると本方法の性能全体は驚く程良
好であった。
、−数的には、例えば、助動詞の可能性あるものの使用
を決定するために名詞句の両側を調べる方法は有してい
ないということを考えると本方法の性能全体は驚く程良
好であった。
辞書の全ての確率が等しい重みを与えられる必要がある
場合は1文解剖は極めて困難である。辞書は可能なもの
に焦点を合せ、そして、ありそうなものには焦点を合せ
ない傾向がある。些細な文章であるrI see a
bird (私は鳥を見6)J ltえてみる。実際上
は、文の各ワードは明確である。Francts及びK
uceraによれば、ワード「■ (私)」は5838
回の観察の内5837回(100%)名詞として現れ、
rsee (見る)」は772回の観察の内77
1回(100始め%)動詞として現れ、「a(1羽の)
」は23019の観察の内23013回(100%)冠
詞として現れ、そして、rbi rd (鳥)」は26
回の観察の内26回(100%)名詞として現れる。し
かしながら、ウェブスター第7版NewCollegi
ath Dictionaryによれば、各ワードは
あいまいである。タグの所望の割当(スピーチ部分)の
外に、最初の3つのワードは名詞としてリストされ、そ
して、最後のワードは自動詞としてリストされる0文解
剖部によりこれらのもっともらしい割当は統語論的に悪
い形状であるとして除外されればと人は望むかもしれな
いが、不幸にして従来技術はその結果を達成する一貫し
た方法を有してはいない0文解剖部は次の形、即ち、 * [NP [N C1ty (市)] [N
sch。
場合は1文解剖は極めて困難である。辞書は可能なもの
に焦点を合せ、そして、ありそうなものには焦点を合せ
ない傾向がある。些細な文章であるrI see a
bird (私は鳥を見6)J ltえてみる。実際上
は、文の各ワードは明確である。Francts及びK
uceraによれば、ワード「■ (私)」は5838
回の観察の内5837回(100%)名詞として現れ、
rsee (見る)」は772回の観察の内77
1回(100始め%)動詞として現れ、「a(1羽の)
」は23019の観察の内23013回(100%)冠
詞として現れ、そして、rbi rd (鳥)」は26
回の観察の内26回(100%)名詞として現れる。し
かしながら、ウェブスター第7版NewCollegi
ath Dictionaryによれば、各ワードは
あいまいである。タグの所望の割当(スピーチ部分)の
外に、最初の3つのワードは名詞としてリストされ、そ
して、最後のワードは自動詞としてリストされる0文解
剖部によりこれらのもっともらしい割当は統語論的に悪
い形状であるとして除外されればと人は望むかもしれな
いが、不幸にして従来技術はその結果を達成する一貫し
た方法を有してはいない0文解剖部は次の形、即ち、 * [NP [N C1ty (市)] [N
sch。
ol(学校)] [N committee (委
員会)] [N meeting(会議)]]ノ名
詞句を受は入れようとする場合には、次のものを除外す
ることができない、 −[NP [NI] [N see (見る)][
NNa1羽(7))] [NN bird(鳥)]]
(ここでrNPJは「名詞句」を表し、そして、rNJ
は「名詞」を表す)。
員会)] [N meeting(会議)]]ノ名
詞句を受は入れようとする場合には、次のものを除外す
ることができない、 −[NP [NI] [N see (見る)][
NNa1羽(7))] [NN bird(鳥)]]
(ここでrNPJは「名詞句」を表し、そして、rNJ
は「名詞」を表す)。
同様にして文解剖部は恐らく自動詞としての鳥を受は入
れなければならないであろう。これは次の場合に統語論
的に悪いものが存在しないからである、 −[S [NP [NI] [N See (見る
)][NNa1羽の)コ][VP[V b i
r d(鳥)]]コ、ここで「S」は「主語」を表し
、rVPJは「動詞句」を表し、そして、「v」は「動
詞」を表す。
れなければならないであろう。これは次の場合に統語論
的に悪いものが存在しないからである、 −[S [NP [NI] [N See (見る
)][NNa1羽の)コ][VP[V b i
r d(鳥)]]コ、ここで「S」は「主語」を表し
、rVPJは「動詞句」を表し、そして、「v」は「動
詞」を表す。
これらのスピーチ部分の割当は間違ってはいないが、極
めて起りそうもないことである。
めて起りそうもないことである。
文rI see a bird(私は鳥を見る)
」をもう1度考える0問題は語命及び文脈の確率(これ
ら両者はTagged BrownCoupsuから
評価される)を最適化するワードに対するスピーチ部分
の割当を見つけることである。語りの確率は次の頻度か
ら評価される(PPSS=単数名詞、NP=固有名詞、
vp=動詞、UH=間投詞、IN=前置詞、AT=冠詞
、NN=名詞): ワード スピーチ部分 語命の確率は明白な方法で評価される。例えば、「I(
私)」が代名詞である確率、Prob(PPSS l
rI (私)」)は頻度(PPSSrI (私)」)
/頻度(「私J)即ち583715838と評価される
。rsee(見る)」が動詞である確率は771/77
2であると評価される。他の語命の確率の評価は同一パ
ターンに従う。
」をもう1度考える0問題は語命及び文脈の確率(これ
ら両者はTagged BrownCoupsuから
評価される)を最適化するワードに対するスピーチ部分
の割当を見つけることである。語りの確率は次の頻度か
ら評価される(PPSS=単数名詞、NP=固有名詞、
vp=動詞、UH=間投詞、IN=前置詞、AT=冠詞
、NN=名詞): ワード スピーチ部分 語命の確率は明白な方法で評価される。例えば、「I(
私)」が代名詞である確率、Prob(PPSS l
rI (私)」)は頻度(PPSSrI (私)」)
/頻度(「私J)即ち583715838と評価される
。rsee(見る)」が動詞である確率は771/77
2であると評価される。他の語命の確率の評価は同一パ
ターンに従う。
文脈の確率、続く2つのスピーチ部分YとZを与えられ
たスピーチ部分Xを見る確率は2グラムスピーチ部分の
頻度YZで3グラムスピーチ部分の頻度xYZを割るこ
とによって評価される。
たスピーチ部分Xを見る確率は2グラムスピーチ部分の
頻度YZで3グラムスピーチ部分の頻度xYZを割るこ
とによって評価される。
従って、例えば、冠詞及び名詞の前に動詞を見る確率は
頻度(VB、AT、NN)に対する頻度(AT、NN)
の比即ち3412153091=0.064と評価され
る。同一の文脈において名詞を見る確率は頻度(NN、
AT、NN)に対する53091の比、即ち、6291
53091=0.01と評価される。他の文脈の確率の
評価は同一パターンに従う。
頻度(VB、AT、NN)に対する頻度(AT、NN)
の比即ち3412153091=0.064と評価され
る。同一の文脈において名詞を見る確率は頻度(NN、
AT、NN)に対する53091の比、即ち、6291
53091=0.01と評価される。他の文脈の確率の
評価は同一パターンに従う。
諸費の確率と文脈の確率の積を最適化するワードに対す
るスピーチ部分タグの割当を見つけるために研究がなさ
れている。概念的には、この研究により入力ワードに対
するスピーチ部分のあらゆる可能な割当が列挙される。
るスピーチ部分タグの割当を見つけるために研究がなさ
れている。概念的には、この研究により入力ワードに対
するスピーチ部分のあらゆる可能な割当が列挙される。
この場合、4つの入力ワードがあるがその3つはあいま
いな2つの方法であり入力ワードに対するスピーチ部分
の一組2ψ2” 2” 1=8個の可能な割当を次の
ごとく発生する: I see a birdPPSS V
B AT NNPP5S VB IN
NNPP5S UHAT NN PP!1lts OHIN NNNP VB
AT NN NP VB IN NN HP OHAT NN NP OHIN NN この8個の文の各々は次に語命の確率と文脈の確率の積
により値を付けられ、そして、最良のシーケンスが選択
される。この場合、第1のシーケンスが抜群である。
いな2つの方法であり入力ワードに対するスピーチ部分
の一組2ψ2” 2” 1=8個の可能な割当を次の
ごとく発生する: I see a birdPPSS V
B AT NNPP5S VB IN
NNPP5S UHAT NN PP!1lts OHIN NNNP VB
AT NN NP VB IN NN HP OHAT NN NP OHIN NN この8個の文の各々は次に語命の確率と文脈の確率の積
により値を付けられ、そして、最良のシーケンスが選択
される。この場合、第1のシーケンスが抜群である。
実際、この値付は機能は2つ以上のワードを続けて見る
ことができないので、全ての可能な割当を列挙すること
は必要ではない、換言すれば、スピーチ部分のシーケン
スを列挙する方法では、ある場合には恐らく、あるシー
ケンスは他のシーケンスと競争できず、従って、放棄さ
れる。この事実のために、0(n)の通路のみが列挙さ
れる。
ことができないので、全ての可能な割当を列挙すること
は必要ではない、換言すれば、スピーチ部分のシーケン
スを列挙する方法では、ある場合には恐らく、あるシー
ケンスは他のシーケンスと競争できず、従って、放棄さ
れる。この事実のために、0(n)の通路のみが列挙さ
れる。
この最適化を以下に例で示す:
まずrbtrd(鳥)」に対するスピーチ部分の全ての
割当を見付け、そして、その部分的なシーケンスに値を
付ける。今後、全ての値は対数確率として解釈されるべ
きである。
割当を見付け、そして、その部分的なシーケンスに値を
付ける。今後、全ての値は対数確率として解釈されるべ
きである。
(−4,848072rNNJ)
「a(1羽)」に対するスピーチ部分の全ての割合を見
付けて値を付ける。この点では、2つの通路が存在する
、即ち、 (−7,4453945rATJ rNNJ )(−
15,01957rINJ rNNJ)次に「5ee
(見る)」の割当を見付けて値を付ける。この点では、
通路の数は依然として対数的に増大しているように思わ
れる。
付けて値を付ける。この点では、2つの通路が存在する
、即ち、 (−7,4453945rATJ rNNJ )(−
15,01957rINJ rNNJ)次に「5ee
(見る)」の割当を見付けて値を付ける。この点では、
通路の数は依然として対数的に増大しているように思わ
れる。
(−10,1914″VB”AT″”NN″)(−18
,54318”VB″”I N”N N” )(−29
,974142”UH″”AT””NN”)(−36,
53299” UH”’IN”NN”)次に「工(私
)は」の割当を見付けて値を付けるゆ尚、「a(1羽)
」はフランス語の前M詞INであると仮定することはも
はや必要ではない。それは、4つの全ての通路、即ち、
PP5SVB IN NN、NN VB IN
NN、PP5S UHIN NN及びNP
UHIN NNは何らかの他の通路よりもよく記録す
ることができず、相対値を任意の追加入力が変え得る方
法は存在しないからである。特に、通路PP5S V
B IN NNは通路PP5S VBAT N
Nよりも低い値を付け、そして、追加入力はPP5S
VB IN NNを助けない。
,54318”VB″”I N”N N” )(−29
,974142”UH″”AT””NN”)(−36,
53299” UH”’IN”NN”)次に「工(私
)は」の割当を見付けて値を付けるゆ尚、「a(1羽)
」はフランス語の前M詞INであると仮定することはも
はや必要ではない。それは、4つの全ての通路、即ち、
PP5SVB IN NN、NN VB IN
NN、PP5S UHIN NN及びNP
UHIN NNは何らかの他の通路よりもよく記録す
ることができず、相対値を任意の追加入力が変え得る方
法は存在しないからである。特に、通路PP5S V
B IN NNは通路PP5S VBAT N
Nよりも低い値を付け、そして、追加入力はPP5S
VB IN NNを助けない。
これは文脈の値付は機能がスピーチの3つの部分の有限
の窓を有しているからであり、そして、それは現存のP
P5S及びVBの反対側をみるには充分ではないからで
ある。
の窓を有しているからであり、そして、それは現存のP
P5S及びVBの反対側をみるには充分ではないからで
ある。
(−12,l1127581”PP5S″”VB″”A
T”NN″)(−24,177242″MP″″v日″
”AT″”NN″)(−35,13G7458”PP5
S″″01(”AT’″NN”)゛(〜44.3394
3″NP”UH”’AT”’NN)研究では、範囲外の
ワードに関する空白のスピーチ部分を仮定してもう2つ
の繰り返しを続行する。
T”NN″)(−24,177242″MP″″v日″
”AT″”NN″)(−35,13G7458”PP5
S″″01(”AT’″NN”)゛(〜44.3394
3″NP”UH”’AT”’NN)研究では、範囲外の
ワードに関する空白のスピーチ部分を仮定してもう2つ
の繰り返しを続行する。
(−13,2fl12333 空白″PpSS”VB’
″’AT”NN″)(−28,5198”空白″NP″
′?′VB″”AT””NN”)最後に、結果はPP5
S VB AT NNである。
″’AT”NN″)(−28,5198”空白″NP″
′?′VB″”AT””NN”)最後に、結果はPP5
S VB AT NNである。
(−13,2B2333 blank blank″P
P5S″”VB””AT”NN”)幾分更に面白い例は
Can they cancans、(かれらは水
飲みコツプをかん詰めにできるか)であり、 cans (水飲みコツプ)は (−5,456845rNNsJ )、ここでrNNS
Jは「纜数名詞」を表す。
P5S″”VB””AT”NN”)幾分更に面白い例は
Can they cancans、(かれらは水
飲みコツプをかん詰めにできるか)であり、 cans (水飲みコツプ)は (−5,456845rNNsJ )、ここでrNNS
Jは「纜数名詞」を表す。
can (かん詰めにする)は
(−12−803288″NN”’NNS″)(−15
,935471”VB″”NNS”)(−15,94[
1739”MD″”NNS″)ここでr M D Jは
「典型的な助動詞」を表す。
,935471”VB″”NNS”)(−15,94[
1739”MD″”NNS″)ここでr M D Jは
「典型的な助動詞」を表す。
they(彼等)は
(−18,02818”PP5SVBMO″″NNS”
)(−18,7711934”PP5S″”VB””N
NS”)(−21,411836″PP5S″″NN″
”NNS″)AM (−21,788554”MD″”PP5S″′″’V
B””NNS”)(−28,454851″NN”PP
5S”MD″”NNS″)(−28,308572”V
B”PP5S″”MD″″’NNS″)(−21,93
2137空白″MO″″PP5S″″VB″”NNS”
)(−30,170452空白″VB”PP5S”’M
D″″NNS”)(−31,453785空白″NN″
″PP5S″”Mal″”NNS”)そして結果はCa
n/MD they/PPJS can/VB can
s/’14NSである。
)(−18,7711934”PP5S″”VB””N
NS”)(−21,411836″PP5S″″NN″
”NNS″)AM (−21,788554”MD″”PP5S″′″’V
B””NNS”)(−28,454851″NN”PP
5S”MD″”NNS″)(−28,308572”V
B”PP5S″”MD″″’NNS″)(−21,93
2137空白″MO″″PP5S″″VB″”NNS”
)(−30,170452空白″VB”PP5S”’M
D″″NNS”)(−31,453785空白″NN″
″PP5S″”Mal″”NNS”)そして結果はCa
n/MD they/PPJS can/VB can
s/’14NSである。
確率を最適化するΦ・・この方法の他の詳細については
、表Aを参照。
、表Aを参照。
この説明はブロック14の動作の説明によって動作の説
明を完結する。
明を完結する。
ブロック15で発生する利用の例としては、表示は概念
的に最も簡単ではあるが、特に、人間のオペレータを持
つ相互作用方式では依然として実際的である。第3図と
第4図の説明では以下に更に精巧な例を与える。しかし
ながら、先ず、もう1つのツールを説明することが望ま
しい、このツールは本方法の拡張を用いる名詞句の解剖
である。
的に最も簡単ではあるが、特に、人間のオペレータを持
つ相互作用方式では依然として実際的である。第3図と
第4図の説明では以下に更に精巧な例を与える。しかし
ながら、先ず、もう1つのツールを説明することが望ま
しい、このツールは本方法の拡張を用いる名詞句の解剖
である。
同様な確率論的な方法は非常に高い精度で単一名詞句を
突き止めるように適用されてきた。ここに提案された方
法は先行解剖の確率論的な類似物である。どの2つのカ
テゴリー(終り又は弁路り)の間に開き又は閉じかっこ
を挿入すべきかどうかを述べる表を先行解剖が利用する
ということを思い出してみる。ここに提案された方法は
スピーチの全ての対の部分の間に閉じたかっこ及び開い
たかっこの確率を与える表を利用している。サンプルは
スピーチの5つの部分AT、(冠詞)、NN(単数名詞
)、NNS (非単数名詞)、VB(無語尾変化動詞)
、IN(前置詞)について以下に示しである。これらの
確率はBrownCo rpusから選択された割線材
料の約4o 、ooo語から評価された。この割線材料
は面倒な半自動手段により名詞句(複a)に解剖された
。
突き止めるように適用されてきた。ここに提案された方
法は先行解剖の確率論的な類似物である。どの2つのカ
テゴリー(終り又は弁路り)の間に開き又は閉じかっこ
を挿入すべきかどうかを述べる表を先行解剖が利用する
ということを思い出してみる。ここに提案された方法は
スピーチの全ての対の部分の間に閉じたかっこ及び開い
たかっこの確率を与える表を利用している。サンプルは
スピーチの5つの部分AT、(冠詞)、NN(単数名詞
)、NNS (非単数名詞)、VB(無語尾変化動詞)
、IN(前置詞)について以下に示しである。これらの
確率はBrownCo rpusから選択された割線材
料の約4o 、ooo語から評価された。この割線材料
は面倒な半自動手段により名詞句(複a)に解剖された
。
第1のワードと第2のワードの間に名詞句を開始する確
率 第2のワード 第1とワードと第2のワードの間で名詞句を終らせる確
率 第2のワード 確率論的な解剖部は入力としてスピーチの一連の部分を
与えられ、そして、名詞句の始めと終りに対応するかっ
こを挿入するよう要求される。概念的には、解剖部は入
力の全ての可能な解剖を列挙し、そして、先行確率によ
りそれらの各々に値を付ける。例えば、入力シーケンス
:NN VBを考える。このシーケンスにかっこを付
けるには次の5つの可能な方法がある(帰納は考えない
): 、NN VB 、 [NN] VB 、 [NN VB] 、 [NN] [VB] 、NN [VB] これらの解剖の各々は6個の先行確率を掛けることによ
り値をつけられる。開いた/閉じたかっこの確率は(N
Nの前、NNの後又はVBの後の)3つの位置のどれに
も現れる(又は現れない)、最高の値をもつ解剖は出力
として戻される。
率 第2のワード 第1とワードと第2のワードの間で名詞句を終らせる確
率 第2のワード 確率論的な解剖部は入力としてスピーチの一連の部分を
与えられ、そして、名詞句の始めと終りに対応するかっ
こを挿入するよう要求される。概念的には、解剖部は入
力の全ての可能な解剖を列挙し、そして、先行確率によ
りそれらの各々に値を付ける。例えば、入力シーケンス
:NN VBを考える。このシーケンスにかっこを付
けるには次の5つの可能な方法がある(帰納は考えない
): 、NN VB 、 [NN] VB 、 [NN VB] 、 [NN] [VB] 、NN [VB] これらの解剖の各々は6個の先行確率を掛けることによ
り値をつけられる。開いた/閉じたかっこの確率は(N
Nの前、NNの後又はVBの後の)3つの位置のどれに
も現れる(又は現れない)、最高の値をもつ解剖は出力
として戻される。
この方法はこの方法が如何に簡単であるかを考慮すると
極めて具合よく行われるが、かっこの数を過小評価し、
そして、2つの名詞句を一緒にしてしまう何らかの傾向
がある。
極めて具合よく行われるが、かっこの数を過小評価し、
そして、2つの名詞句を一緒にしてしまう何らかの傾向
がある。
第2図で記載したように、名詞句の解剖はその入力とし
て第1図のスピーチ部分の割当からの出力をとる。しか
しながら、それはスピーチ部分の他のどの割当技術の結
果を使用することもてきる。
て第1図のスピーチ部分の割当からの出力をとる。しか
しながら、それはスピーチ部分の他のどの割当技術の結
果を使用することもてきる。
いずれの場合にも、ブロック22では、全ての可能な名
桐句の境界が割当られる。ブロック23では、弁封の境
界が取り除かれる。各文ごとに、これらはこの文の始め
の所にある終りの境界と、この文の終りのところの開始
の境界を(空白部分を含む)有する。
桐句の境界が割当られる。ブロック23では、弁封の境
界が取り除かれる。各文ごとに、これらはこの文の始め
の所にある終りの境界と、この文の終りのところの開始
の境界を(空白部分を含む)有する。
ブロック24の処理は名詞句の境界の各々の筋の通った
割当に関する確率の木の創作を含む。
割当に関する確率の木の創作を含む。
最高の確率の割当は、ブロック25で示したように、後
での処理、例えば、結果の利用のために保持される。
での処理、例えば、結果の利用のために保持される。
次に本発明の更に特定した利用を述べる。スピーチ部分
のタグ付けはスピーチ合成、スピーチ認識、スペル訂正
、校正、質問の応答、機械翻訳及び大きなテキストデー
タベースの調査(例えばパテント、新聞)を含む多くの
領域における潜在的な利用の場合の重要な実際問題であ
る0本発明者は、明らかに1発音はスピーチ部分に時々
依存する特にスピーチ合成の用途に興味を持っている。
のタグ付けはスピーチ合成、スピーチ認識、スペル訂正
、校正、質問の応答、機械翻訳及び大きなテキストデー
タベースの調査(例えばパテント、新聞)を含む多くの
領域における潜在的な利用の場合の重要な実際問題であ
る0本発明者は、明らかに1発音はスピーチ部分に時々
依存する特にスピーチ合成の用途に興味を持っている。
そして、発音がスピーチ部分に依存する次の3つの例を
考えてみる。
考えてみる。
第1に、”wind(風)”のような言葉が存在する。
この場合、この名詞は動詞とは異なる母音を有している
。即ち、名詞rwi’nd(風)」はrthe wi
nd is strong(風が強い)」の場合の
ように短い母音を有している。一方、動詞rwind(
巻く)」はrD。
。即ち、名詞rwi’nd(風)」はrthe wi
nd is strong(風が強い)」の場合の
ように短い母音を有している。一方、動詞rwind(
巻く)」はrD。
not forget to wind yo
ur watch(時計のねじを巻くのを忘れるな)
」の場合にように長い母音を有している。
ur watch(時計のねじを巻くのを忘れるな)
」の場合にように長い母音を有している。
第2に、発音rthat4にはrDid y。
u see THAT(それを見たか)?」の場合
のように強制が置かれ、これは、rIt isa
shame that he is leaw
ing(彼が行ってしまうのは残念だ)」の場合のよう
に補足間rthatJとは異なっている。
のように強制が置かれ、これは、rIt isa
shame that he is leaw
ing(彼が行ってしまうのは残念だ)」の場合のよう
に補足間rthatJとは異なっている。
第3に、roily FLUID (油性流体)」と
rTRANsMIssION flui’d (伝送
流体)」との差に注意する。概して、roily F
LtJIDJのような形容詞−名詞のシーケンスは一般
的には右側に強勢が置かれるが、rTRANsMIss
ION fluidJのような名詞−名詞のシーケン
スは一般的には左側に強勢が置かれる。これは例えば、
1984年ロンドンのJeorge A11en
& Unroin発行のEnglish Word
S±ressにおいてEr1k Fudgeによ
り述べられている。これらは合成装置が正確なスピーチ
部分情報を利用した場合にはより自然に響くと思われる
多くの構成の内のわずか3つのものである。
rTRANsMIssION flui’d (伝送
流体)」との差に注意する。概して、roily F
LtJIDJのような形容詞−名詞のシーケンスは一般
的には右側に強勢が置かれるが、rTRANsMIss
ION fluidJのような名詞−名詞のシーケン
スは一般的には左側に強勢が置かれる。これは例えば、
1984年ロンドンのJeorge A11en
& Unroin発行のEnglish Word
S±ressにおいてEr1k Fudgeによ
り述べられている。これらは合成装置が正確なスピーチ
部分情報を利用した場合にはより自然に響くと思われる
多くの構成の内のわずか3つのものである。
第3図では、スピーチ部分タグ性は部31は第1図の方
法を使用するコンピュータである0名詞句解剖部32は
第2図の方法を使用するコンピュータである。
法を使用するコンピュータである0名詞句解剖部32は
第2図の方法を使用するコンピュータである。
スピーチ部分タグ性は部31と名詞句解剖部32の出力
は統語論解析機で利用されてC,H。
は統語論解析機で利用されてC,H。
Coker外に発行された米国特許代3.704.34
5号の第1図の絶対強勢信号発生器18に入力信号を提
供する。
5号の第1図の絶対強勢信号発生器18に入力信号を提
供する。
現在説明されている規則の例としては、名詞句について
の規則を述べる、Fudgeの木のページ144〜14
9の付録5.1を注意されたし。
の規則を述べる、Fudgeの木のページ144〜14
9の付録5.1を注意されたし。
他の点では、第3図の実施例の動作はCokerの特許
の第1図の実施例に似ている。
の第1図の実施例に似ている。
同様に、第4図の実施例では、スピーチ部分タグ性は部
41は第1図に説明したように機能し、そして1名詞句
解剖部42は第2図において記載したように機能する。
41は第1図に説明したように機能し、そして1名詞句
解剖部42は第2図において記載したように機能する。
その場合、名詞句及びスピーチ部分情報はテキスト編集
システム43で利用されるが、このシステム43はF、
R,Lange外に与えられた米国特許第4,674,
065号で記載された種類のものである。特に、スピー
チ部分タグ性は部41と名詞句解剖部42はその中に編
集表示を発生するのを助けるためにLange外の特許
における「スピーチ部分」部33に対する置換物を与え
る。これに固有の精度のため第1図及び第2図の本発明
の方法は従来技術の場合よりも更に有用な編集表示を発
生するはずである。
システム43で利用されるが、このシステム43はF、
R,Lange外に与えられた米国特許第4,674,
065号で記載された種類のものである。特に、スピー
チ部分タグ性は部41と名詞句解剖部42はその中に編
集表示を発生するのを助けるためにLange外の特許
における「スピーチ部分」部33に対する置換物を与え
る。これに固有の精度のため第1図及び第2図の本発明
の方法は従来技術の場合よりも更に有用な編集表示を発
生するはずである。
あるいは又、テキスト編集システム43は1981年2
月Be1l Te1ephone Laborat
ories、Incorporated発行のComp
uter 5cience 工echnical
Report、No、91L、L、Cherry外に
よるrWrittngTools−The 5TYL
E & Diction ProgramsJに
記載されたWriter’s Workbench商
標システムであってもよい0本発明の方法はその中にお
いてrPARATsJと示した方法の置換となろう。
月Be1l Te1ephone Laborat
ories、Incorporated発行のComp
uter 5cience 工echnical
Report、No、91L、L、Cherry外に
よるrWrittngTools−The 5TYL
E & Diction ProgramsJに
記載されたWriter’s Workbench商
標システムであってもよい0本発明の方法はその中にお
いてrPARATsJと示した方法の置換となろう。
明らかに、本発明の種々の変形は本発明の意図及び範囲
から逸脱せずに成し得る。
から逸脱せずに成し得る。
例えば、Fudgeの本の強勢規則を実施する1つの方
法はCamb r t dgeのCambridge
University Pressによる本、Fr
om Te5t to 5peach:The
MIT Ta1k System(1987)に
おいてJonathan A11en外により、特に
、第10章、rThe Fundamental
FrequencyGeneratorJで開示された
アルゴリズムによるものであろう。
法はCamb r t dgeのCambridge
University Pressによる本、Fr
om Te5t to 5peach:The
MIT Ta1k System(1987)に
おいてJonathan A11en外により、特に
、第10章、rThe Fundamental
FrequencyGeneratorJで開示された
アルゴリズムによるものであろう。
更に、語彙の確率は平滑化により改善することができる
確率のみではない。文脈の頻度もまたZi pfの法則
に従うように見える。即ち、スピーチの3つの部分の全
てのシーケンスよりなる組の場合、対数紙におけるその
ランクに対してシーケンスの頻度をプロットしたとき、
古典的な線形関係及びほとんど−1の勾配を観察した。
確率のみではない。文脈の頻度もまたZi pfの法則
に従うように見える。即ち、スピーチの3つの部分の全
てのシーケンスよりなる組の場合、対数紙におけるその
ランクに対してシーケンスの頻度をプロットしたとき、
古典的な線形関係及びほとんど−1の勾配を観察した。
明らかに、平滑技術は文脈頻度の代替物にも充分応用で
きる。同じことは又名詞句の解剖の場合に使用される先
行確率についても云える。
きる。同じことは又名詞句の解剖の場合に使用される先
行確率についても云える。
本発明の技術はスピーチ認識のような他の用途にも関連
を有する。スピーチ部分の文脈確率は認識することがで
きる話し言葉の場合に恐らくより良い選択が可能となろ
う。
を有する。スピーチ部分の文脈確率は認識することがで
きる話し言葉の場合に恐らくより良い選択が可能となろ
う。
本発明の技術はC,W、Tompson外に対して19
87年4月18日に発行された米国特許部4,688,
194号に開示されたデータベースに呼び掛けるシステ
ムにおいて記載されたスピーチ部分のタグ付きの直接の
代りとなり得る。
87年4月18日に発行された米国特許部4,688,
194号に開示されたデータベースに呼び掛けるシステ
ムにおいて記載されたスピーチ部分のタグ付きの直接の
代りとなり得る。
本発明の他の変形例及び応用例も又本発明の意図及び範
囲内にある。
囲内にある。
表 A
フオームのファイルを入力
(WOrd><pos><Iex−prob><pos
><1ex−prob)(pos><I ex−pro
b)・Φ・ (WOrd)(pos)cleX−probxpQS)
(lex−prob)(pos)(Iex−prob)
拳・・ cword><poS><l Cx−pro l)><
pos><Iex−prob><pos><1ex−p
rob)・・・ (WOrd)(pus)(leX−prob)(pOs
)(leX−prob)<pOs)(lex−prob
)+1・− 各ワードは文中のワード(トークン)に(逆の順序で)
対応する。りpos>と(leX−1)rOb)はスピ
ーチと語仝の確率の一部である。
><1ex−prob)(pos><I ex−pro
b)・Φ・ (WOrd)(pos)cleX−probxpQS)
(lex−prob)(pos)(Iex−prob)
拳・・ cword><poS><l Cx−pro l)><
pos><Iex−prob><pos><1ex−p
rob)・・・ (WOrd)(pus)(leX−prob)(pOs
)(leX−prob)<pOs)(lex−prob
)+1・− 各ワードは文中のワード(トークン)に(逆の順序で)
対応する。りpos>と(leX−1)rOb)はスピ
ーチと語仝の確率の一部である。
スピーチ部分の最良のシーケンスを出力new−act
ive−paLhsニー() :非通路の組通路は一
連のスピーチ部分とスコアの記録てある。変数の旧−a
ctive−pathは一組の1通路まで初期化され、
この通路は一連の非スピーチ部分と■Dの確率値を含む
。
ive−paLhsニー() :非通路の組通路は一
連のスピーチ部分とスコアの記録てある。変数の旧−a
ctive−pathは一組の1通路まで初期化され、
この通路は一連の非スピーチ部分と■Dの確率値を含む
。
old−active−pathsニー(くpaths
: [1,5core:1.0)) : 1通路の組 入カニ 1ine:=readline() if(line=end−of−file) got
o finishword:=popfield(li
ne)while(ライン空いてない) pos:=popfield(line)tex−pr
ob:=popfield(line)loop fo
r old−path in old−active−
pathsold−paths:mold−pathン
partsold 5coreニーold−path)
scorenew−pa rts : =conca
1ona i c (o Id−pa ths 。
: [1,5core:1.0)) : 1通路の組 入カニ 1ine:=readline() if(line=end−of−file) got
o finishword:=popfield(li
ne)while(ライン空いてない) pos:=popfield(line)tex−pr
ob:=popfield(line)loop fo
r old−path in old−active−
pathsold−paths:mold−pathン
partsold 5coreニーold−path)
scorenew−pa rts : =conca
1ona i c (o Id−pa ths 。
pos)
new 5coreニー1ex−prob寡o1d s
coretcontextuajprob (new−paths) new path:awake−record(ne
w−parts。
coretcontextuajprob (new−paths) new path:awake−record(ne
w−parts。
new−score)
if(new−score)score of pat
hs innew−active−paths wi
th the 5aselast two parts
of speech)new−active−pat
hs:*add new−pathしo new−a
ctive−pathsold−active−pat
hs:=new−active−pathsnew−a
ctive paths:a()goto 1npu
t 完成: find path in new−activ
e−paths with bestcore output path−)partscontex
tuajprob (1,、、x y zl):ret
urn (freq(x y z)/freq(X Y
))入力ファイル: 空白 空白 1.0 空白 空白 1.0 鳥 NN 1.01羽 AT
23013/23019 IN 6/2301
9見ルVB 771/772 0H1/772
私は I)PSS 58:1715838 NP
115838空白 空白 1.0 空白 空白 1.0 出力ファイル: 空白 空白 NN AT VB PP5S 空白
空白Trace of old−active−pat
hs:(以後値は対数確率と解釈するものとする)ワー
ド ′°鳥”を処理後、” old−active−p
aths is(く部分:[NN 空白 空白]の値
はニー4.848072))ワード nanを処理後o
1+jactive −paths is ((部分:
[ATNN空白空白1の値はニー7.4453945)
く部分:IN NN空白 空白Jの値はニー15.01
957))ワード”see (見る)“の後に (く部分:[VB AT NN 空白 空白1の値は
ニーIO,19L4〉 く部分:[VB IN NN 空白 空白1の値はニ
ー18.54318〉 〈部分:[UHAT NN 空白 空白]の値はニー
29.974142〉 (部分:[UII IN NN空白 空白]の値はニー
36.53299〉) ワード″1″の後で (く部分:[PP5S VB AT NN空白 空白]
の値はニー12、’12751N) 〈部分=[NP VB AT NN空白 空白Jの値は
ニー24.111242> く部分:[PP5S UHAT NN空白 空白]の値
はニー35.667458) く部分:[NP OHAT NN空白 空白1の値はニ
ー44.3範囲外のワードの空白スピーチ部分を仮定し
て更に2回サーチを鰻返す (く部分=【空白PP5S i AT NN空白 空白
]の値はニー13.262333) く部分:[空白NN VB AT NN 空白 空白
Iの値はニー26.5196)) 最後に (<部分:[空白空白PP5S VB AT NN
空白 空白1の値はニー13.26233]〉)
hs innew−active−paths wi
th the 5aselast two parts
of speech)new−active−pat
hs:*add new−pathしo new−a
ctive−pathsold−active−pat
hs:=new−active−pathsnew−a
ctive paths:a()goto 1npu
t 完成: find path in new−activ
e−paths with bestcore output path−)partscontex
tuajprob (1,、、x y zl):ret
urn (freq(x y z)/freq(X Y
))入力ファイル: 空白 空白 1.0 空白 空白 1.0 鳥 NN 1.01羽 AT
23013/23019 IN 6/2301
9見ルVB 771/772 0H1/772
私は I)PSS 58:1715838 NP
115838空白 空白 1.0 空白 空白 1.0 出力ファイル: 空白 空白 NN AT VB PP5S 空白
空白Trace of old−active−pat
hs:(以後値は対数確率と解釈するものとする)ワー
ド ′°鳥”を処理後、” old−active−p
aths is(く部分:[NN 空白 空白]の値
はニー4.848072))ワード nanを処理後o
1+jactive −paths is ((部分:
[ATNN空白空白1の値はニー7.4453945)
く部分:IN NN空白 空白Jの値はニー15.01
957))ワード”see (見る)“の後に (く部分:[VB AT NN 空白 空白1の値は
ニーIO,19L4〉 く部分:[VB IN NN 空白 空白1の値はニ
ー18.54318〉 〈部分:[UHAT NN 空白 空白]の値はニー
29.974142〉 (部分:[UII IN NN空白 空白]の値はニー
36.53299〉) ワード″1″の後で (く部分:[PP5S VB AT NN空白 空白]
の値はニー12、’12751N) 〈部分=[NP VB AT NN空白 空白Jの値は
ニー24.111242> く部分:[PP5S UHAT NN空白 空白]の値
はニー35.667458) く部分:[NP OHAT NN空白 空白1の値はニ
ー44.3範囲外のワードの空白スピーチ部分を仮定し
て更に2回サーチを鰻返す (く部分=【空白PP5S i AT NN空白 空白
]の値はニー13.262333) く部分:[空白NN VB AT NN 空白 空白
Iの値はニー26.5196)) 最後に (<部分:[空白空白PP5S VB AT NN
空白 空白1の値はニー13.26233]〉)
第1図は本発明によるスピーチ部分割当方法の流れ図で
あって、 第2図は本発明による名詞句解剖方法の流れ図であり、 第3図は第1図と第2図の方法を使用するスピーチ合成
装置のブロック線図であり、及び第4図は第1図の方法
を使用するテキスト編集のブロック線図である。 出願人 アメリカン テレフォン アンドテレグラフ
カムバニー FIG、3 FIO,I FIG、4
あって、 第2図は本発明による名詞句解剖方法の流れ図であり、 第3図は第1図と第2図の方法を使用するスピーチ合成
装置のブロック線図であり、及び第4図は第1図の方法
を使用するテキスト編集のブロック線図である。 出願人 アメリカン テレフォン アンドテレグラフ
カムバニー FIG、3 FIO,I FIG、4
Claims (1)
- 【特許請求の範囲】 1、メッセージの記憶された表現を電子的に読み取り、 各ワードがスピーチの特定部分となるべき語彙の確率を
発生し、及び この主題となるワードに関する語彙の確率に応答すると
共に少なくとも1つの隣接ワードがスピーチの特定部分
となる文脈の確率に応答して、主題のワードがスピーチ
の特定部分となる文脈の確率を選択する段階を有する種
類のメッセージのワードにスピーチの一部分(スピーチ
部という)を割当る自動化方法において、 前記語彙の確率を発生する段階は、 特定のワード、文の前後の空間、及び句読点の符号を、
前記メッセージの非言葉の記録の場合に経験的に決定さ
れる発生頻度を持つ言葉として表現し、 少なくとも特定のワードに関するスピーチ部分の頻度を
平滑化する段階を有し、及び 前記文脈の確率を選択する段階は、少なくとも次のワー
ドを有する近くのワードのスピーチ部分に関する文脈の
確率を最大にすることを含むことを特徴とするスピーチ
部分の決定方法。 2、全ての生じ得る名詞句の境界を割当て、全ての非対
の境界を除去し、及び 文脈上の名詞句の境界の確率を最適化する段階を更に有
することを特徴とする請求項1記載の決定方法。 3、前記最適化段階の結果に依存してワードの強勢を割
当る段階を有することを更に特徴とする請求項2記載の
決定方法。 4、割当られたワードの強勢に応答して前記メッセージ
に対応するスピーチを合成する手段を更に有することを
特徴とする請求項3記載の決定方法。 5、メッセージ内の文脈上の誤りを検出するためにこの
メッセージ内のワードに関する選択された文脈上の最高
の確率を使用することを更に特徴とする請求項2記載の
決定方法。6、メッセージ内で、このメッセージ内の各
名詞の付近のワードが名詞句の一部となるかどうかを評
価し、そして、その結果生じる評価を利用する段階を有
する種類の、適正な確率でスピーチ部分が割当られてい
る名詞句の始めと終りを決定する自動化方法において、
全ての有り得る名詞句の境界を割当て、 全ての非対の境界を除去し、及び 文脈上の名詞句の境界の確率を最適化する段階を更に有
することを特徴とするスピーチ部分の決定方法。 7、近くのワードのスピーチの部分に関してnグラム解
析によりメッセージ内におけるスピーチ部分を割当て、
そして、この割当段階が、 メッセージの非言葉の記録の場合における経験的に決定
された発生頻度を持つワードとして特定の非ワードを表
し、 前記非ワードの異なる使用の文脈上のスピーチ部分の確
率に関係して特定のスピーチ部分となるべきメッセージ
内の互いの近くのワードの規格化された最適な文脈の確
率を計算する段階を有し、この規格化された文脈の確率
は、空白空間を含む、文の終りにおいて開始することに
より全て決定される、2グラムスピーチ部分の確率によ
り割られた、3グラムスピーチ部分の確率であることを
特徴とする請求項1又は6記載の決定方法。 8、前記発生する段階はスピーチの特定部分として比較
的低い発生頻度を持つワードのスピーチ部分の使用につ
いて辞書を参照することにより頻度を平滑化し、及び 前記選択する段階は、 文脈の確率の語彙の確率の積を決定し、及び同一ワード
に関する前の積を越える積を保持することを含む、数個
の可能なスピーチ部分の組み合せに関し前記決定する段
階を反復する段階を更に有し、 前記文脈の確率の語彙の確率の積を決定する場合に、 前記語彙の確率はスピーチの全ての部分としてのワード
の発生頻度により割られた、スピーチの特定部分として
の前記ワードの発生頻度の商として評価され、 前記文脈の確率は2グラム頻度により3グラム頻度を割
ることにより評価され、この場合、3グラム頻度は2つ
の続くワードについて既に決定されているスピーチの2
つの続く部分に対するシーケンスにおけるスピーチのそ
の特定部分の発生頻度であり、そして、 2グラム頻度は、次に続くワードについて既に決定され
ているスピーチの次に続く部分に対するシーケンスにお
いて次のワードのスピーチの特定部分の発生頻度である
ことを特徴とする請求項1記載の決定方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US152,740 | 1988-02-05 | ||
US07/152,740 US5146405A (en) | 1988-02-05 | 1988-02-05 | Methods for part-of-speech determination and usage |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH01224796A true JPH01224796A (ja) | 1989-09-07 |
JPH0769910B2 JPH0769910B2 (ja) | 1995-07-31 |
Family
ID=22544213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1024794A Expired - Fee Related JPH0769910B2 (ja) | 1988-02-05 | 1989-02-04 | スピーチ部分の決定方法 |
Country Status (9)
Country | Link |
---|---|
US (1) | US5146405A (ja) |
EP (1) | EP0327266B1 (ja) |
JP (1) | JPH0769910B2 (ja) |
KR (1) | KR970006402B1 (ja) |
AU (1) | AU617749B2 (ja) |
CA (1) | CA1301345C (ja) |
DE (1) | DE68923981T2 (ja) |
ES (1) | ES2076952T3 (ja) |
IN (1) | IN175380B (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05289692A (ja) * | 1992-02-10 | 1993-11-05 | Internatl Business Mach Corp <Ibm> | ワードを予測する会話認識装置用言語生成装置及び方法 |
JPH07199379A (ja) * | 1993-10-18 | 1995-08-04 | Internatl Business Mach Corp <Ibm> | 音声記録指標化装置及び方法 |
US6718303B2 (en) | 1998-05-13 | 2004-04-06 | International Business Machines Corporation | Apparatus and method for automatically generating punctuation marks in continuous speech recognition |
Families Citing this family (192)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5530863A (en) * | 1989-05-19 | 1996-06-25 | Fujitsu Limited | Programming language processing system with program translation performed by term rewriting with pattern matching |
US5157759A (en) * | 1990-06-28 | 1992-10-20 | At&T Bell Laboratories | Written language parser system |
US5418717A (en) * | 1990-08-27 | 1995-05-23 | Su; Keh-Yih | Multiple score language processing system |
JP2764343B2 (ja) * | 1990-09-07 | 1998-06-11 | 富士通株式会社 | 節/句境界抽出方式 |
NL9100849A (nl) * | 1991-05-16 | 1992-12-16 | Oce Nederland Bv | Werkwijze voor het met behulp van een computersysteem corrigeren van een fout in een, in een natuurlijke taal gestelde zin, alsmede een inrichting geschikt voor het uitvoeren van deze werkwijze. |
US5477451A (en) * | 1991-07-25 | 1995-12-19 | International Business Machines Corp. | Method and system for natural language translation |
US5475796A (en) * | 1991-12-20 | 1995-12-12 | Nec Corporation | Pitch pattern generation apparatus |
US5541836A (en) * | 1991-12-30 | 1996-07-30 | At&T Corp. | Word disambiguation apparatus and methods |
US5383120A (en) * | 1992-03-02 | 1995-01-17 | General Electric Company | Method for tagging collocations in text |
US5293584A (en) * | 1992-05-21 | 1994-03-08 | International Business Machines Corporation | Speech recognition system for natural language translation |
JPH06195373A (ja) * | 1992-12-24 | 1994-07-15 | Sharp Corp | 機械翻訳装置 |
US5440481A (en) * | 1992-10-28 | 1995-08-08 | The United States Of America As Represented By The Secretary Of The Navy | System and method for database tomography |
JPH0756957A (ja) * | 1993-08-03 | 1995-03-03 | Xerox Corp | ユーザへの情報提供方法 |
US5873056A (en) * | 1993-10-12 | 1999-02-16 | The Syracuse University | Natural language processing system for semantic vector representation which accounts for lexical ambiguity |
WO1995010832A1 (en) * | 1993-10-15 | 1995-04-20 | At & T Corp. | A method for training a system, the resulting apparatus, and method of use thereof |
US5510981A (en) * | 1993-10-28 | 1996-04-23 | International Business Machines Corporation | Language translation apparatus and method using context-based translation models |
SE513456C2 (sv) * | 1994-05-10 | 2000-09-18 | Telia Ab | Metod och anordning vid tal- till textomvandling |
US5485372A (en) * | 1994-06-01 | 1996-01-16 | Mitsubishi Electric Research Laboratories, Inc. | System for underlying spelling recovery |
US5537317A (en) * | 1994-06-01 | 1996-07-16 | Mitsubishi Electric Research Laboratories Inc. | System for correcting grammer based parts on speech probability |
US5610812A (en) * | 1994-06-24 | 1997-03-11 | Mitsubishi Electric Information Technology Center America, Inc. | Contextual tagger utilizing deterministic finite state transducer |
US5850561A (en) * | 1994-09-23 | 1998-12-15 | Lucent Technologies Inc. | Glossary construction tool |
US5721938A (en) * | 1995-06-07 | 1998-02-24 | Stuckey; Barbara K. | Method and device for parsing and analyzing natural language sentences and text |
EP0834139A4 (en) * | 1995-06-07 | 1998-08-05 | Int Language Engineering Corp | COMPUTER-ASSISTED TRANSLATION TOOLS |
US6330538B1 (en) | 1995-06-13 | 2001-12-11 | British Telecommunications Public Limited Company | Phonetic unit duration adjustment for text-to-speech system |
US5873660A (en) * | 1995-06-19 | 1999-02-23 | Microsoft Corporation | Morphological search and replace |
US5828991A (en) * | 1995-06-30 | 1998-10-27 | The Research Foundation Of The State University Of New York | Sentence reconstruction using word ambiguity resolution |
US5680628A (en) * | 1995-07-19 | 1997-10-21 | Inso Corporation | Method and apparatus for automated search and retrieval process |
US5794177A (en) * | 1995-07-19 | 1998-08-11 | Inso Corporation | Method and apparatus for morphological analysis and generation of natural language text |
US5721902A (en) * | 1995-09-15 | 1998-02-24 | Infonautics Corporation | Restricted expansion of query terms using part of speech tagging |
US5819260A (en) * | 1996-01-22 | 1998-10-06 | Lexis-Nexis | Phrase recognition method and apparatus |
SG49804A1 (en) * | 1996-03-20 | 1998-06-15 | Government Of Singapore Repres | Parsing and translating natural language sentences automatically |
US5999896A (en) * | 1996-06-25 | 1999-12-07 | Microsoft Corporation | Method and system for identifying and resolving commonly confused words in a natural language parser |
US5878386A (en) * | 1996-06-28 | 1999-03-02 | Microsoft Corporation | Natural language parser with dictionary-based part-of-speech probabilities |
US5802533A (en) * | 1996-08-07 | 1998-09-01 | Walker; Randall C. | Text processor |
US6279017B1 (en) * | 1996-08-07 | 2001-08-21 | Randall C. Walker | Method and apparatus for displaying text based upon attributes found within the text |
US7672829B2 (en) * | 1997-03-04 | 2010-03-02 | Hiroshi Ishikura | Pivot translation method and system |
CA2282711A1 (en) * | 1997-03-04 | 1998-09-11 | Hiroshi Ishikura | Language analysis system and method |
JP2001517815A (ja) * | 1997-09-24 | 2001-10-09 | ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ | 言語認識上の類似発声識別方法及び装置 |
US6182028B1 (en) | 1997-11-07 | 2001-01-30 | Motorola, Inc. | Method, device and system for part-of-speech disambiguation |
US6260008B1 (en) * | 1998-01-08 | 2001-07-10 | Sharp Kabushiki Kaisha | Method of and system for disambiguating syntactic word multiples |
US6098042A (en) * | 1998-01-30 | 2000-08-01 | International Business Machines Corporation | Homograph filter for speech synthesis system |
GB9806085D0 (en) * | 1998-03-23 | 1998-05-20 | Xerox Corp | Text summarisation using light syntactic parsing |
US6167370A (en) * | 1998-09-09 | 2000-12-26 | Invention Machine Corporation | Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object (SAO) structures |
US6185524B1 (en) * | 1998-12-31 | 2001-02-06 | Lernout & Hauspie Speech Products N.V. | Method and apparatus for automatic identification of word boundaries in continuous text and computation of word boundary scores |
EP2336899A3 (en) | 1999-03-19 | 2014-11-26 | Trados GmbH | Workflow management system |
DE19942171A1 (de) * | 1999-09-03 | 2001-03-15 | Siemens Ag | Verfahren zur Satzendebestimmung in der automatischen Sprachverarbeitung |
US20060116865A1 (en) | 1999-09-17 | 2006-06-01 | Www.Uniscape.Com | E-services translation utilizing machine translation and translation memory |
AU2621301A (en) * | 1999-11-01 | 2001-05-14 | Kurzweil Cyberart Technologies, Inc. | Computer generated poetry system |
US7050977B1 (en) | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US9076448B2 (en) | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US6633846B1 (en) | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
US6665640B1 (en) | 1999-11-12 | 2003-12-16 | Phoenix Solutions, Inc. | Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries |
US6615172B1 (en) | 1999-11-12 | 2003-09-02 | Phoenix Solutions, Inc. | Intelligent query engine for processing voice based queries |
US7120574B2 (en) | 2000-04-03 | 2006-10-10 | Invention Machine Corporation | Synonym extension of search queries with validation |
US7962326B2 (en) * | 2000-04-20 | 2011-06-14 | Invention Machine Corporation | Semantic answering system and method |
US6684202B1 (en) * | 2000-05-31 | 2004-01-27 | Lexis Nexis | Computer-based system and method for finding rules of law in text |
US6810375B1 (en) * | 2000-05-31 | 2004-10-26 | Hapax Limited | Method for segmentation of text |
US6941513B2 (en) | 2000-06-15 | 2005-09-06 | Cognisphere, Inc. | System and method for text structuring and text generation |
US6952666B1 (en) * | 2000-07-20 | 2005-10-04 | Microsoft Corporation | Ranking parser for a natural language processing system |
US6728707B1 (en) | 2000-08-11 | 2004-04-27 | Attensity Corporation | Relational text index creation and searching |
US6732098B1 (en) | 2000-08-11 | 2004-05-04 | Attensity Corporation | Relational text index creation and searching |
US6732097B1 (en) | 2000-08-11 | 2004-05-04 | Attensity Corporation | Relational text index creation and searching |
US6741988B1 (en) | 2000-08-11 | 2004-05-25 | Attensity Corporation | Relational text index creation and searching |
US6738765B1 (en) | 2000-08-11 | 2004-05-18 | Attensity Corporation | Relational text index creation and searching |
US7171349B1 (en) | 2000-08-11 | 2007-01-30 | Attensity Corporation | Relational text index creation and searching |
US8272873B1 (en) | 2000-10-16 | 2012-09-25 | Progressive Language, Inc. | Language learning system |
DE10057634C2 (de) * | 2000-11-21 | 2003-01-30 | Bosch Gmbh Robert | Verfahren zur Verarbeitung von Text in einer Rechnereinheit und Rechnereinheit |
US7263488B2 (en) * | 2000-12-04 | 2007-08-28 | Microsoft Corporation | Method and apparatus for identifying prosodic word boundaries |
US6978239B2 (en) * | 2000-12-04 | 2005-12-20 | Microsoft Corporation | Method and apparatus for speech synthesis without prosody modification |
US6910004B2 (en) * | 2000-12-19 | 2005-06-21 | Xerox Corporation | Method and computer system for part-of-speech tagging of incomplete sentences |
US20020129066A1 (en) * | 2000-12-28 | 2002-09-12 | Milward David R. | Computer implemented method for reformatting logically complex clauses in an electronic text-based document |
US6859771B2 (en) * | 2001-04-23 | 2005-02-22 | Microsoft Corporation | System and method for identifying base noun phrases |
WO2002097663A1 (en) * | 2001-05-31 | 2002-12-05 | University Of Southern California | Integer programming decoder for machine translation |
WO2003005166A2 (en) * | 2001-07-03 | 2003-01-16 | University Of Southern California | A syntax-based statistical translation model |
US9009590B2 (en) * | 2001-07-31 | 2015-04-14 | Invention Machines Corporation | Semantic processor for recognition of cause-effect relations in natural language documents |
JP2003242176A (ja) * | 2001-12-13 | 2003-08-29 | Sony Corp | 情報処理装置および方法、記録媒体、並びにプログラム |
US6988063B2 (en) * | 2002-02-12 | 2006-01-17 | Sunflare Co., Ltd. | System and method for accurate grammar analysis using a part-of-speech tagged (POST) parser and learners' model |
AU2003269808A1 (en) | 2002-03-26 | 2004-01-06 | University Of Southern California | Constructing a translation lexicon from comparable, non-parallel corpora |
US20030191645A1 (en) * | 2002-04-05 | 2003-10-09 | Guojun Zhou | Statistical pronunciation model for text to speech |
WO2004003887A2 (en) * | 2002-06-28 | 2004-01-08 | Conceptual Speech, Llc | Multi-phoneme streamer and knowledge representation speech recognition system and method |
US7567902B2 (en) * | 2002-09-18 | 2009-07-28 | Nuance Communications, Inc. | Generating speech recognition grammars from a large corpus of data |
EP1588277A4 (en) * | 2002-12-06 | 2007-04-25 | Attensity Corp | SYSTEMS AND METHOD FOR PROVIDING A MIXING DATA INTEGRATION SERVICE |
US10733976B2 (en) * | 2003-03-01 | 2020-08-04 | Robert E. Coifman | Method and apparatus for improving the transcription accuracy of speech recognition software |
US7496498B2 (en) * | 2003-03-24 | 2009-02-24 | Microsoft Corporation | Front-end architecture for a multi-lingual text-to-speech system |
KR100481598B1 (ko) * | 2003-05-26 | 2005-04-08 | 한국전자통신연구원 | 복합 형태소 분석 장치 및 방법 |
US8548794B2 (en) | 2003-07-02 | 2013-10-01 | University Of Southern California | Statistical noun phrase translation |
US7711545B2 (en) * | 2003-07-02 | 2010-05-04 | Language Weaver, Inc. | Empirical methods for splitting compound words with application to machine translation |
US7475010B2 (en) * | 2003-09-03 | 2009-01-06 | Lingospot, Inc. | Adaptive and scalable method for resolving natural language ambiguities |
US7813916B2 (en) | 2003-11-18 | 2010-10-12 | University Of Utah | Acquisition and application of contextual role knowledge for coreference resolution |
US7983896B2 (en) | 2004-03-05 | 2011-07-19 | SDL Language Technology | In-context exact (ICE) matching |
US20100262621A1 (en) * | 2004-03-05 | 2010-10-14 | Russ Ross | In-context exact (ice) matching |
US7698125B2 (en) * | 2004-03-15 | 2010-04-13 | Language Weaver, Inc. | Training tree transducers for probabilistic operations |
US8296127B2 (en) * | 2004-03-23 | 2012-10-23 | University Of Southern California | Discovery of parallel text portions in comparable collections of corpora and training using comparable texts |
US8666725B2 (en) * | 2004-04-16 | 2014-03-04 | University Of Southern California | Selection and use of nonstatistical translation components in a statistical machine translation framework |
US7664748B2 (en) * | 2004-07-12 | 2010-02-16 | John Eric Harrity | Systems and methods for changing symbol sequences in documents |
GB2417103A (en) * | 2004-08-11 | 2006-02-15 | Sdl Plc | Natural language translation system |
WO2006042321A2 (en) | 2004-10-12 | 2006-04-20 | University Of Southern California | Training for a text-to-text application which uses string to tree conversion for training and decoding |
US20060122834A1 (en) * | 2004-12-03 | 2006-06-08 | Bennett Ian M | Emotion detection device & method for use in distributed systems |
US8886517B2 (en) | 2005-06-17 | 2014-11-11 | Language Weaver, Inc. | Trust scoring for language translation systems |
US8676563B2 (en) | 2009-10-01 | 2014-03-18 | Language Weaver, Inc. | Providing human-generated and machine-generated trusted translations |
US7974833B2 (en) | 2005-06-21 | 2011-07-05 | Language Weaver, Inc. | Weighted system of expressing language information using a compact notation |
JP2007024960A (ja) * | 2005-07-12 | 2007-02-01 | Internatl Business Mach Corp <Ibm> | システム、プログラムおよび制御方法 |
US7389222B1 (en) | 2005-08-02 | 2008-06-17 | Language Weaver, Inc. | Task parallelization in a text-to-text system |
US7813918B2 (en) * | 2005-08-03 | 2010-10-12 | Language Weaver, Inc. | Identifying documents which form translated pairs, within a document collection |
JP2007058509A (ja) * | 2005-08-24 | 2007-03-08 | Toshiba Corp | 言語処理システム |
US8700404B1 (en) * | 2005-08-27 | 2014-04-15 | At&T Intellectual Property Ii, L.P. | System and method for using semantic and syntactic graphs for utterance classification |
US7624020B2 (en) * | 2005-09-09 | 2009-11-24 | Language Weaver, Inc. | Adapter for allowing both online and offline training of a text to text system |
US10319252B2 (en) | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
US20100280818A1 (en) * | 2006-03-03 | 2010-11-04 | Childers Stephen R | Key Talk |
US8943080B2 (en) | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
WO2007129316A2 (en) | 2006-05-07 | 2007-11-15 | Varcode Ltd. | A system and method for improved quality management in a product logistic chain |
US7562811B2 (en) | 2007-01-18 | 2009-07-21 | Varcode Ltd. | System and method for improved quality management in a product logistic chain |
US8886518B1 (en) | 2006-08-07 | 2014-11-11 | Language Weaver, Inc. | System and method for capitalizing machine translated text |
US8521506B2 (en) | 2006-09-21 | 2013-08-27 | Sdl Plc | Computer-implemented method, computer software and apparatus for use in a translation system |
US9235573B2 (en) | 2006-10-10 | 2016-01-12 | Abbyy Infopoisk Llc | Universal difference measure |
US9645993B2 (en) | 2006-10-10 | 2017-05-09 | Abbyy Infopoisk Llc | Method and system for semantic searching |
US9633005B2 (en) | 2006-10-10 | 2017-04-25 | Abbyy Infopoisk Llc | Exhaustive automatic processing of textual information |
US9984071B2 (en) | 2006-10-10 | 2018-05-29 | Abbyy Production Llc | Language ambiguity detection of text |
US8145473B2 (en) | 2006-10-10 | 2012-03-27 | Abbyy Software Ltd. | Deep model statistics method for machine translation |
US8548795B2 (en) * | 2006-10-10 | 2013-10-01 | Abbyy Software Ltd. | Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system |
US8214199B2 (en) * | 2006-10-10 | 2012-07-03 | Abbyy Software, Ltd. | Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions |
US9047275B2 (en) | 2006-10-10 | 2015-06-02 | Abbyy Infopoisk Llc | Methods and systems for alignment of parallel text corpora |
US8195447B2 (en) | 2006-10-10 | 2012-06-05 | Abbyy Software Ltd. | Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions |
US20080086298A1 (en) * | 2006-10-10 | 2008-04-10 | Anisimovich Konstantin | Method and system for translating sentences between langauges |
US8433556B2 (en) | 2006-11-02 | 2013-04-30 | University Of Southern California | Semi-supervised training for statistical word alignment |
US9122674B1 (en) | 2006-12-15 | 2015-09-01 | Language Weaver, Inc. | Use of annotations in statistical machine translation |
CA2675216A1 (en) * | 2007-01-10 | 2008-07-17 | Nick Koudas | Method and system for information discovery and text analysis |
US8468149B1 (en) | 2007-01-26 | 2013-06-18 | Language Weaver, Inc. | Multi-lingual online community |
US8615389B1 (en) | 2007-03-16 | 2013-12-24 | Language Weaver, Inc. | Generation and exploitation of an approximate language model |
US8959011B2 (en) | 2007-03-22 | 2015-02-17 | Abbyy Infopoisk Llc | Indicating and correcting errors in machine translation systems |
US8831928B2 (en) | 2007-04-04 | 2014-09-09 | Language Weaver, Inc. | Customizable machine translation service |
US8528808B2 (en) | 2007-05-06 | 2013-09-10 | Varcode Ltd. | System and method for quality management utilizing barcode indicators |
KR100887726B1 (ko) * | 2007-05-28 | 2009-03-12 | 엔에이치엔(주) | 자동 띄어쓰기 방법 및 그 시스템 |
US8825466B1 (en) | 2007-06-08 | 2014-09-02 | Language Weaver, Inc. | Modification of annotated bilingual segment pairs in syntax-based machine translation |
US8812296B2 (en) | 2007-06-27 | 2014-08-19 | Abbyy Infopoisk Llc | Method and system for natural language dictionary generation |
CN105045777A (zh) * | 2007-08-01 | 2015-11-11 | 金格软件有限公司 | 使用互联网语料库的自动的上下文相关的语言校正和增强 |
US8595642B1 (en) | 2007-10-04 | 2013-11-26 | Great Northern Research, LLC | Multiple shell multi faceted graphical user interface |
EP2218055B1 (en) | 2007-11-14 | 2014-07-16 | Varcode Ltd. | A system and method for quality management utilizing barcode indicators |
US11704526B2 (en) | 2008-06-10 | 2023-07-18 | Varcode Ltd. | Barcoded indicators for quality management |
US9262409B2 (en) | 2008-08-06 | 2016-02-16 | Abbyy Infopoisk Llc | Translation of a selected text fragment of a screen |
US8190423B2 (en) * | 2008-09-05 | 2012-05-29 | Trigent Software Ltd. | Word sense disambiguation using emergent categories |
GB2468278A (en) * | 2009-03-02 | 2010-09-08 | Sdl Plc | Computer assisted natural language translation outputs selectable target text associated in bilingual corpus with input target text from partial translation |
US9262403B2 (en) | 2009-03-02 | 2016-02-16 | Sdl Plc | Dynamic generation of auto-suggest dictionary for natural language translation |
CN102439590A (zh) * | 2009-03-13 | 2012-05-02 | 发明机器公司 | 用于自然语言文本的自动语义标注的系统和方法 |
US8990064B2 (en) | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
US9390161B2 (en) * | 2009-09-25 | 2016-07-12 | Shady Shehata | Methods and systems for extracting keyphrases from natural text for search engine indexing |
US8380486B2 (en) | 2009-10-01 | 2013-02-19 | Language Weaver, Inc. | Providing machine-generated translations and corresponding trust levels |
US20110161073A1 (en) * | 2009-12-29 | 2011-06-30 | Dynavox Systems, Llc | System and method of disambiguating and selecting dictionary definitions for one or more target words |
US20110161067A1 (en) * | 2009-12-29 | 2011-06-30 | Dynavox Systems, Llc | System and method of using pos tagging for symbol assignment |
CA2787390A1 (en) * | 2010-02-01 | 2011-08-04 | Ginger Software, Inc. | Automatic context sensitive language correction using an internet corpus particularly for small keyboard devices |
US10417646B2 (en) | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
US8788260B2 (en) * | 2010-05-11 | 2014-07-22 | Microsoft Corporation | Generating snippets based on content features |
US9128929B2 (en) | 2011-01-14 | 2015-09-08 | Sdl Language Technologies | Systems and methods for automatically estimating a translation time including preparation time in addition to the translation itself |
US11003838B2 (en) | 2011-04-18 | 2021-05-11 | Sdl Inc. | Systems and methods for monitoring post translation editing |
US8694303B2 (en) | 2011-06-15 | 2014-04-08 | Language Weaver, Inc. | Systems and methods for tuning parameters in statistical machine translation |
EP2546760A1 (en) | 2011-07-11 | 2013-01-16 | Accenture Global Services Limited | Provision of user input in systems for jointly discovering topics and sentiment |
US8620837B2 (en) | 2011-07-11 | 2013-12-31 | Accenture Global Services Limited | Determination of a basis for a new domain model based on a plurality of learned models |
US8676730B2 (en) * | 2011-07-11 | 2014-03-18 | Accenture Global Services Limited | Sentiment classifiers based on feature extraction |
US8886515B2 (en) | 2011-10-19 | 2014-11-11 | Language Weaver, Inc. | Systems and methods for enhancing machine translation post edit review processes |
US8942973B2 (en) | 2012-03-09 | 2015-01-27 | Language Weaver, Inc. | Content page URL translation |
US8989485B2 (en) | 2012-04-27 | 2015-03-24 | Abbyy Development Llc | Detecting a junction in a text line of CJK characters |
US8971630B2 (en) | 2012-04-27 | 2015-03-03 | Abbyy Development Llc | Fast CJK character recognition |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US9263059B2 (en) | 2012-09-28 | 2016-02-16 | International Business Machines Corporation | Deep tagging background noises |
US8807422B2 (en) | 2012-10-22 | 2014-08-19 | Varcode Ltd. | Tamper-proof quality management barcode indicators |
EP2915068A4 (en) | 2012-11-02 | 2016-08-03 | Fido Labs Inc | METHOD AND SYSTEM FOR NATURAL LANGUAGE PROCESSING |
US9152622B2 (en) | 2012-11-26 | 2015-10-06 | Language Weaver, Inc. | Personalized machine translation via online adaptation |
CN103971684B (zh) * | 2013-01-29 | 2015-12-09 | 腾讯科技(深圳)有限公司 | 一种添加标点的方法、系统及其语言模型建立方法、装置 |
US9811517B2 (en) | 2013-01-29 | 2017-11-07 | Tencent Technology (Shenzhen) Company Limited | Method and system of adding punctuation and establishing language model using a punctuation weighting applied to chinese speech recognized text |
CN104143331B (zh) | 2013-05-24 | 2015-12-09 | 腾讯科技(深圳)有限公司 | 一种添加标点的方法和系统 |
US9311299B1 (en) * | 2013-07-31 | 2016-04-12 | Google Inc. | Weakly supervised part-of-speech tagging with coupled token and type constraints |
US9213694B2 (en) | 2013-10-10 | 2015-12-15 | Language Weaver, Inc. | Efficient online domain adaptation |
DE202013104836U1 (de) | 2013-10-29 | 2014-01-30 | Foseco International Limited | Speiseraufbau |
RU2592395C2 (ru) | 2013-12-19 | 2016-07-20 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Разрешение семантической неоднозначности при помощи статистического анализа |
RU2586577C2 (ru) | 2014-01-15 | 2016-06-10 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Фильтрация дуг в синтаксическом графе |
US10515138B2 (en) | 2014-04-25 | 2019-12-24 | Mayo Foundation For Medical Education And Research | Enhancing reading accuracy, efficiency and retention |
RU2596600C2 (ru) | 2014-09-02 | 2016-09-10 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способы и системы обработки изображений математических выражений |
US9626358B2 (en) | 2014-11-26 | 2017-04-18 | Abbyy Infopoisk Llc | Creating ontologies by analyzing natural language texts |
CN107615268B (zh) * | 2015-03-10 | 2021-08-24 | 非对称实验室公司 | 用于根据词之间的不确定性而对词间隔进行不对称格式化的系统和方法 |
US9703394B2 (en) * | 2015-03-24 | 2017-07-11 | Google Inc. | Unlearning techniques for adaptive language models in text entry |
JP6649472B2 (ja) | 2015-05-18 | 2020-02-19 | バーコード リミティド | 活性化可能な品質表示ラベルのための熱変色性インク証印 |
CN107709946B (zh) | 2015-07-07 | 2022-05-10 | 发可有限公司 | 电子质量标志 |
US10635863B2 (en) | 2017-10-30 | 2020-04-28 | Sdl Inc. | Fragment recall and adaptive automated translation |
US10817676B2 (en) | 2017-12-27 | 2020-10-27 | Sdl Inc. | Intelligent routing services and systems |
US10956670B2 (en) | 2018-03-03 | 2021-03-23 | Samurai Labs Sp. Z O.O. | System and method for detecting undesirable and potentially harmful online behavior |
US10599767B1 (en) | 2018-05-31 | 2020-03-24 | The Ultimate Software Group, Inc. | System for providing intelligent part of speech processing of complex natural language |
US11256867B2 (en) | 2018-10-09 | 2022-02-22 | Sdl Inc. | Systems and methods of machine learning for digital assets and message creation |
RU2721190C1 (ru) | 2018-12-25 | 2020-05-18 | Общество с ограниченной ответственностью "Аби Продакшн" | Обучение нейронных сетей с использованием функций потерь, отражающих зависимости между соседними токенами |
CN111353295A (zh) * | 2020-02-27 | 2020-06-30 | 广东博智林机器人有限公司 | 序列标注方法、装置、存储介质及计算机设备 |
US11594213B2 (en) * | 2020-03-03 | 2023-02-28 | Rovi Guides, Inc. | Systems and methods for interpreting natural language search queries |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3704345A (en) * | 1971-03-19 | 1972-11-28 | Bell Telephone Labor Inc | Conversion of printed text into synthetic speech |
JPS58175074A (ja) * | 1982-04-07 | 1983-10-14 | Toshiba Corp | 構文分析方式 |
US4674065A (en) * | 1982-04-30 | 1987-06-16 | International Business Machines Corporation | System for detecting and correcting contextual errors in a text processing system |
US4456973A (en) * | 1982-04-30 | 1984-06-26 | International Business Machines Corporation | Automatic text grade level analyzer for a text processing system |
US4688195A (en) * | 1983-01-28 | 1987-08-18 | Texas Instruments Incorporated | Natural-language interface generating system |
US4580218A (en) * | 1983-09-08 | 1986-04-01 | At&T Bell Laboratories | Indexing subject-locating method |
US4692941A (en) * | 1984-04-10 | 1987-09-08 | First Byte | Real-time text-to-speech conversion system |
JPS6140672A (ja) * | 1984-07-31 | 1986-02-26 | Hitachi Ltd | 多品詞解消処理方式 |
-
1988
- 1988-02-05 US US07/152,740 patent/US5146405A/en not_active Expired - Lifetime
-
1989
- 1989-01-27 EP EP89300790A patent/EP0327266B1/en not_active Expired - Lifetime
- 1989-01-27 ES ES89300790T patent/ES2076952T3/es not_active Expired - Lifetime
- 1989-01-27 DE DE68923981T patent/DE68923981T2/de not_active Expired - Fee Related
- 1989-02-01 AU AU28990/89A patent/AU617749B2/en not_active Ceased
- 1989-02-03 CA CA000590100A patent/CA1301345C/en not_active Expired - Fee Related
- 1989-02-04 KR KR1019890001364A patent/KR970006402B1/ko not_active IP Right Cessation
- 1989-02-04 JP JP1024794A patent/JPH0769910B2/ja not_active Expired - Fee Related
-
1990
- 1990-01-16 IN IN46MA1990 patent/IN175380B/en unknown
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05289692A (ja) * | 1992-02-10 | 1993-11-05 | Internatl Business Mach Corp <Ibm> | ワードを予測する会話認識装置用言語生成装置及び方法 |
JPH07199379A (ja) * | 1993-10-18 | 1995-08-04 | Internatl Business Mach Corp <Ibm> | 音声記録指標化装置及び方法 |
US6718303B2 (en) | 1998-05-13 | 2004-04-06 | International Business Machines Corporation | Apparatus and method for automatically generating punctuation marks in continuous speech recognition |
Also Published As
Publication number | Publication date |
---|---|
DE68923981D1 (de) | 1995-10-05 |
EP0327266A2 (en) | 1989-08-09 |
IN175380B (ja) | 1995-06-10 |
KR890013549A (ko) | 1989-09-23 |
CA1301345C (en) | 1992-05-19 |
AU617749B2 (en) | 1991-12-05 |
KR970006402B1 (ko) | 1997-04-28 |
US5146405A (en) | 1992-09-08 |
JPH0769910B2 (ja) | 1995-07-31 |
ES2076952T3 (es) | 1995-11-16 |
AU2899089A (en) | 1989-08-10 |
DE68923981T2 (de) | 1996-05-15 |
EP0327266A3 (en) | 1992-01-02 |
EP0327266B1 (en) | 1995-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH01224796A (ja) | スピーチ部分の決定方法 | |
Longacre | Grammar discovery procedures: a field manual | |
Crompton | Syllables and segments in speech production | |
US5510981A (en) | Language translation apparatus and method using context-based translation models | |
Bird | Sparse transcription | |
Huet | Formal structure of Sanskrit text: Requirements analysis for a mechanical Sanskrit processor | |
Neto et al. | The design of a large vocabulary speech corpus for portuguese. | |
Lin et al. | Extracting Chinese Frequent Strings Without Dictionary From a Chinese corpus, its Applications | |
Alkahtani | Building and verifying parallel corpora between Arabic and English | |
Kathol et al. | Speech translation for low-resource languages: the case of Pashto. | |
Uliniansyah et al. | Development of text and speech corpus for an Indonesian speech-to-speech translation system | |
Thatphithakkul et al. | LOTUS-BI: A Thai-English code-mixing speech corpus | |
Gibbon et al. | Spoken Language Characterization | |
Hammarberg | Introduction to the ASU Corpus: a longitudinal oral and written text corpus of adult learner Swedish with a corresponding part from native Swedes. Version 2010-11-16. | |
Hazem et al. | Towards automatic variant analysis of ancient devotional texts | |
Weber et al. | Blackfoot Words: a database of Blackfoot lexical forms | |
Matsuoka et al. | Natural language processing in a Japanese text-to-speech system for written-style texts | |
Magary | Translation technique in the Peshitta of the book of Micah | |
Baclayon et al. | Designing a Context-Based English Synonym Database | |
Chen et al. | Chinese Spelling Check based on Neural Machine Translation | |
Ghoshal et al. | Normalization of shorthand forms in French text messages using word embedding and machine translation | |
Monaghan et al. | Multilingual TTS for computer telephony: The Aculab approach | |
Mostafavi Kashani | Automatic transliteration from Arabic to English and its impact on machine translation | |
Goetzfridt et al. | Language Dictionaries and Grammars of Guam and Micronesia | |
SAMUEL | DESIGNING A STEMMING ALGORITHM FOR KAMBAATA TEXT: A RULE BASED APPROACH |