JPH02297195A - 形態素解析方式 - Google Patents
形態素解析方式Info
- Publication number
- JPH02297195A JPH02297195A JP1051112A JP5111289A JPH02297195A JP H02297195 A JPH02297195 A JP H02297195A JP 1051112 A JP1051112 A JP 1051112A JP 5111289 A JP5111289 A JP 5111289A JP H02297195 A JPH02297195 A JP H02297195A
- Authority
- JP
- Japan
- Prior art keywords
- group
- word
- information
- words
- occurrence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 15
- 150000001875 compounds Chemical class 0.000 claims abstract description 10
- 230000000877 morphologic effect Effects 0.000 claims description 8
- 238000000034 method Methods 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(産業上の利用分野)
本発明は日英機械翻訳システム、日本語テキスト音声合
成システム等の必須構成要素である日本語の形態素解析
方式に関するものである。
成システム等の必須構成要素である日本語の形態素解析
方式に関するものである。
(従来の技術)
従来、単語の境界に空白などの切れ目がないという特徴
がある日本語テキストの解析を行なうために、単語の境
界を決定する形態素分割の種々の方式が提案されている
。これらには、たとえば[情報処理J第27巻第8号9
51ページに記載されているように、最長一致法、二文
節最長一致法、文節数最小法、拡張文節モデル上のコス
ト最小法等の日本語形態素解析の技術が知られている。
がある日本語テキストの解析を行なうために、単語の境
界を決定する形態素分割の種々の方式が提案されている
。これらには、たとえば[情報処理J第27巻第8号9
51ページに記載されているように、最長一致法、二文
節最長一致法、文節数最小法、拡張文節モデル上のコス
ト最小法等の日本語形態素解析の技術が知られている。
(発明が解決しようとする問題点)
しかしながら、従来の形態素解析方式においては、複合
語区間内の単語生起規則の利用で不充分なため形態素解
析の能力が不充分であった。たとえば、ある種の語や辞
が、複合語区間内で共起しやすいという特徴をもちいて
多義解消を行なうことは試みてはいなかった。
語区間内の単語生起規則の利用で不充分なため形態素解
析の能力が不充分であった。たとえば、ある種の語や辞
が、複合語区間内で共起しやすいという特徴をもちいて
多義解消を行なうことは試みてはいなかった。
本発明の目的は、このような欠点を改良した高精度の形
態素解析方式を提供することにある。
態素解析方式を提供することにある。
(問題を解決するための手段)
本発明の形態素解析方式は、複合語区間においてある特
定の順に共起する性質をもつ単語のグループに対して、
そのグループに属する各単語の辞書情報として、そのグ
ループの識別子および共起における出現の順序情報を登
録しておき、入力文中にそのグループに属する単語が前
記辞書情報として登録された出現順序を満足して共起す
るならば、各単語区間においてそれらを優先的に選択す
ることを特徴としている。
定の順に共起する性質をもつ単語のグループに対して、
そのグループに属する各単語の辞書情報として、そのグ
ループの識別子および共起における出現の順序情報を登
録しておき、入力文中にそのグループに属する単語が前
記辞書情報として登録された出現順序を満足して共起す
るならば、各単語区間においてそれらを優先的に選択す
ることを特徴としている。
(作用)
日本語には、時間・時刻表現、行政区分、組織の階層を
あられす表現などに見られる、複合語内である特定の順
に共起しやすいという特徴をもつ単語のグループがある
。よって、この共起の情報によって多義解消を行なうこ
とができる。
あられす表現などに見られる、複合語内である特定の順
に共起しやすいという特徴をもつ単語のグループがある
。よって、この共起の情報によって多義解消を行なうこ
とができる。
例えば、「分」という表記には、数詞につく接尾辞だけ
を考えても、■比率を示すE分]、■時刻を示す「分」
、■角度を示す[分1などの多義がある。ところが、「
101時/30分」という表現においては、時刻をあら
れす[時Jの後方に出現しているために、■時刻の[分
]を選択することができる。また[3割5分Jという表
現においては、比率を表わすF割]の後方に出現してい
るために、■比率の[分1を選択することができる。こ
の選択を可能にするには、単語の辞書情報として、共起
するグループ名と、その中での出現順に関する情報を登
録しておけばよい。
を考えても、■比率を示すE分]、■時刻を示す「分」
、■角度を示す[分1などの多義がある。ところが、「
101時/30分」という表現においては、時刻をあら
れす[時Jの後方に出現しているために、■時刻の[分
]を選択することができる。また[3割5分Jという表
現においては、比率を表わすF割]の後方に出現してい
るために、■比率の[分1を選択することができる。こ
の選択を可能にするには、単語の辞書情報として、共起
するグループ名と、その中での出現順に関する情報を登
録しておけばよい。
(実施例)
次に第1図を参照しつつ、実施例にしたがって本発明の
詳細な説明する。
詳細な説明する。
第1図は本発明の原理を実現するための一実施例である
。
。
単語の辞書項目がもつフィールドの1つとして、AXI
Sというフィールドを設定しておく。これは、(t、n
)という2つ組の値をもち、tは共起のグループの識別
子、nは共起における順序を示す数である。
Sというフィールドを設定しておく。これは、(t、n
)という2つ組の値をもち、tは共起のグループの識別
子、nは共起における順序を示す数である。
入力文は、形態素分割部101の処理の結果、単語区間
の系列となり、分割結果保持部104に出力される。ひ
とつの単語区間は、複数の候補単語を含む可能性がある
。解析制御部103は、形態素分割部101の終了信号
を受は取ったら、分割結果保持部104中の各単語区間
の各候補単語Wに対して次の処理を行なう。
の系列となり、分割結果保持部104に出力される。ひ
とつの単語区間は、複数の候補単語を含む可能性がある
。解析制御部103は、形態素分割部101の終了信号
を受は取ったら、分割結果保持部104中の各単語区間
の各候補単語Wに対して次の処理を行なう。
(1)辞書情報中にAXIS、 (t、 n)が存在す
るならば、同−文節内のWより右方の候補単語で、AX
IS、 (t’、 n’)をもち、t=t’、n>n”
のものがあるかどうかをチエツクする。もし、そのよう
な候補単語W′が存在するならば、おのおのの単語区間
において、WおよびW′を選択することにし、それら以
外の候補単語を削除する。
るならば、同−文節内のWより右方の候補単語で、AX
IS、 (t’、 n’)をもち、t=t’、n>n”
のものがあるかどうかをチエツクする。もし、そのよう
な候補単語W′が存在するならば、おのおのの単語区間
において、WおよびW′を選択することにし、それら以
外の候補単語を削除する。
次に、第2図を用いて、具体的な処理の例を説明する。
第2図は、入力文[10時30分です。」に対する形態
素分割部101の出力をあられす。解析制御部103が
上記の(1)の処理を行なうと、1時[の辞書情報20
8 G、: AXIS、 (TIME、 30)が存在
し、かつその右方にある[分(時刻月の辞書情報209
にAXIS、 (TIME。
素分割部101の出力をあられす。解析制御部103が
上記の(1)の処理を行なうと、1時[の辞書情報20
8 G、: AXIS、 (TIME、 30)が存在
し、かつその右方にある[分(時刻月の辞書情報209
にAXIS、 (TIME。
20)が存在し、30 > 20であるから、[分Jの
単語区間においては、204と207のうち、204が
選択される。よって、解析制御部103は、解析結果と
して、rlO/11評10/分(時刻)lです/、 J
という単語列を出力する。
単語区間においては、204と207のうち、204が
選択される。よって、解析制御部103は、解析結果と
して、rlO/11評10/分(時刻)lです/、 J
という単語列を出力する。
(発明の効果)
以上述べたように本発明の形態素解析方式によると、辞
書に保持された複合語内の共起による選択情報を用いる
ことにより、強力な多義解消機能を実現することが可能
となる。
書に保持された複合語内の共起による選択情報を用いる
ことにより、強力な多義解消機能を実現することが可能
となる。
第1図は本発明の一実施例を示すブロック図である。第
2図は形態素分割部から解析制御部へ出力される形態素
分割結果をあられす図である。 図において、 101・・・形態素分割部、102・・・単語辞書、1
03・・・回折制御部、104・・・分割結果保持部、
201〜207・・・辞書引きの結果得られた候補単語
、208〜210・・・辞書情報の一部をそれぞれあら
れす。
2図は形態素分割部から解析制御部へ出力される形態素
分割結果をあられす図である。 図において、 101・・・形態素分割部、102・・・単語辞書、1
03・・・回折制御部、104・・・分割結果保持部、
201〜207・・・辞書引きの結果得られた候補単語
、208〜210・・・辞書情報の一部をそれぞれあら
れす。
Claims (1)
- 複合語区間においてある特定の順に共起する性質をもつ
単語のグループに対して、そのグループに属する各単語
の辞書情報として、そのグループの識別子および共起に
おける出現の順序情報を登録しておき、入力文中にその
グループに属する単語が前記辞書情報として登録された
出現順序を満足して共起するならば、各単語区間におい
てそれらを優先的に選択することを特徴とする形態素解
析方式。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1051112A JPH02297195A (ja) | 1989-03-02 | 1989-03-02 | 形態素解析方式 |
GB9004566A GB2229558A (en) | 1989-03-02 | 1990-03-01 | Device for analyzing Japanese sentences into morphemes with attention directed to morpheme groups |
US07/853,601 US5337232A (en) | 1989-03-02 | 1992-03-18 | Morpheme analysis device |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1051112A JPH02297195A (ja) | 1989-03-02 | 1989-03-02 | 形態素解析方式 |
US07/853,601 US5337232A (en) | 1989-03-02 | 1992-03-18 | Morpheme analysis device |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH02297195A true JPH02297195A (ja) | 1990-12-07 |
Family
ID=26391640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1051112A Pending JPH02297195A (ja) | 1989-03-02 | 1989-03-02 | 形態素解析方式 |
Country Status (3)
Country | Link |
---|---|
US (1) | US5337232A (ja) |
JP (1) | JPH02297195A (ja) |
GB (1) | GB2229558A (ja) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5721938A (en) * | 1995-06-07 | 1998-02-24 | Stuckey; Barbara K. | Method and device for parsing and analyzing natural language sentences and text |
DE19624988A1 (de) * | 1996-06-22 | 1998-01-02 | Peter Dr Toma | Verfahren zur automatischen Erkennung eines gesprochenen Textes |
DE19624987A1 (de) * | 1996-06-22 | 1998-01-02 | Peter Dr Toma | Automatisches Sprachumsetzungsverfahren |
US8812300B2 (en) | 1998-03-25 | 2014-08-19 | International Business Machines Corporation | Identifying related names |
US6963871B1 (en) * | 1998-03-25 | 2005-11-08 | Language Analysis Systems, Inc. | System and method for adaptive multi-cultural searching and matching of personal names |
US8855998B2 (en) | 1998-03-25 | 2014-10-07 | International Business Machines Corporation | Parsing culturally diverse names |
US6266642B1 (en) | 1999-01-29 | 2001-07-24 | Sony Corporation | Method and portable apparatus for performing spoken language translation |
US6442524B1 (en) | 1999-01-29 | 2002-08-27 | Sony Corporation | Analyzing inflectional morphology in a spoken language translation system |
US6282507B1 (en) | 1999-01-29 | 2001-08-28 | Sony Corporation | Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection |
US6243669B1 (en) | 1999-01-29 | 2001-06-05 | Sony Corporation | Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation |
US6356865B1 (en) * | 1999-01-29 | 2002-03-12 | Sony Corporation | Method and apparatus for performing spoken language translation |
US6278968B1 (en) | 1999-01-29 | 2001-08-21 | Sony Corporation | Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system |
US6374224B1 (en) | 1999-03-10 | 2002-04-16 | Sony Corporation | Method and apparatus for style control in natural language generation |
US7085720B1 (en) * | 1999-11-05 | 2006-08-01 | At & T Corp. | Method for task classification using morphemes |
US7286984B1 (en) | 1999-11-05 | 2007-10-23 | At&T Corp. | Method and system for automatically detecting morphemes in a task classification system using lattices |
US8392188B1 (en) | 1999-11-05 | 2013-03-05 | At&T Intellectual Property Ii, L.P. | Method and system for building a phonotactic model for domain independent speech recognition |
US20030191625A1 (en) * | 1999-11-05 | 2003-10-09 | Gorin Allen Louis | Method and system for creating a named entity language model |
JP3662519B2 (ja) * | 2000-07-13 | 2005-06-22 | シャープ株式会社 | 光ピックアップ |
US20070005586A1 (en) * | 2004-03-30 | 2007-01-04 | Shaefer Leonard A Jr | Parsing culturally diverse names |
KR20110006004A (ko) * | 2009-07-13 | 2011-01-20 | 삼성전자주식회사 | 결합인식단위 최적화 장치 및 그 방법 |
JP2012027722A (ja) * | 2010-07-23 | 2012-02-09 | Sony Corp | 情報処理装置、情報処理方法及び情報処理プログラム |
US20120089400A1 (en) * | 2010-10-06 | 2012-04-12 | Caroline Gilles Henton | Systems and methods for using homophone lexicons in english text-to-speech |
US9330087B2 (en) * | 2013-04-11 | 2016-05-03 | Microsoft Technology Licensing, Llc | Word breaker from cross-lingual phrase table |
JP2019016162A (ja) * | 2017-07-06 | 2019-01-31 | 富士通株式会社 | 形態素解析プログラム、形態素解析装置、および形態素解析方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60144868A (ja) * | 1984-01-06 | 1985-07-31 | Nec Corp | 文脈解析装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4059725A (en) * | 1975-03-12 | 1977-11-22 | Nippon Electric Company, Ltd. | Automatic continuous speech recognition system employing dynamic programming |
US4771385A (en) * | 1984-11-21 | 1988-09-13 | Nec Corporation | Word recognition processing time reduction system using word length and hash technique involving head letters |
US4931936A (en) * | 1987-10-26 | 1990-06-05 | Sharp Kabushiki Kaisha | Language translation system with means to distinguish between phrases and sentence and number discrminating means |
JPH01114976A (ja) * | 1987-10-28 | 1989-05-08 | Sharp Corp | 文書処理装置の辞書構造 |
-
1989
- 1989-03-02 JP JP1051112A patent/JPH02297195A/ja active Pending
-
1990
- 1990-03-01 GB GB9004566A patent/GB2229558A/en not_active Withdrawn
-
1992
- 1992-03-18 US US07/853,601 patent/US5337232A/en not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60144868A (ja) * | 1984-01-06 | 1985-07-31 | Nec Corp | 文脈解析装置 |
Also Published As
Publication number | Publication date |
---|---|
GB2229558A (en) | 1990-09-26 |
GB9004566D0 (en) | 1990-04-25 |
US5337232A (en) | 1994-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH02297195A (ja) | 形態素解析方式 | |
Gaizauskas et al. | University of Sheffield: Description of the LaSIE system as used for MUC-6 | |
DeRose | Grammatical category disambiguation by statistical optimization | |
US4964030A (en) | Apparatus for translating sentences containing punctuation marks | |
Neal Snape et al. | Comparing Chinese, Japanese and Spanish speakers in L2 English article acquisition: Evidence against the fluctuation hypothesis? | |
US5088039A (en) | System for translating adverb phrases placed between two commas through a converter using tree-structured conversion rules | |
Poser | On the directionality of the tone-voice correlation | |
USRE35464E (en) | Apparatus and method for translating sentences containing punctuation marks | |
JPH0877196A (ja) | 文書情報抽出装置 | |
Sahala et al. | A Neural Pipeline for POS-tagging and Lemmatizing Cuneiform Languages | |
JP2812511B2 (ja) | キーワード抽出装置 | |
JP2526657B2 (ja) | 形態素解析装置 | |
Paskaleva et al. | The long journey from the core to the real size of large LDBs | |
Kidder et al. | Computer application of a syntactic density measure | |
JP2655711B2 (ja) | 同形語読み分け方式 | |
JPH02289060A (ja) | 文書抄録作成装置 | |
JPH03138756A (ja) | 自然言語処理装置 | |
JP3014237B2 (ja) | 日本語解析装置 | |
JP3388393B2 (ja) | データベースを利用したテンス、アスペクトあるいはモダリティに関する翻訳装置 | |
JP2954592B2 (ja) | 言語解析装置 | |
Maulidia et al. | AN ANALYSIS OF ENGLISH COMPOUND WORDS IN AN ARTTICLE OF LIFE AND STYLE COLUMN | |
Pintzuk | Adding linguistic information to parsed corpora | |
JPH05233689A (ja) | 文書自動要約方法 | |
Lothers | Deixis in Kalam Kohistani narrative discourse | |
JP2608384B2 (ja) | 機械翻訳装置及びその方法 |