JP3998668B2 - 形態素解析装置、方法及びプログラム - Google Patents
形態素解析装置、方法及びプログラム Download PDFInfo
- Publication number
- JP3998668B2 JP3998668B2 JP2004206996A JP2004206996A JP3998668B2 JP 3998668 B2 JP3998668 B2 JP 3998668B2 JP 2004206996 A JP2004206996 A JP 2004206996A JP 2004206996 A JP2004206996 A JP 2004206996A JP 3998668 B2 JP3998668 B2 JP 3998668B2
- Authority
- JP
- Japan
- Prior art keywords
- hypothesis
- character
- unknown word
- word
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Description
以下、本発明による形態素解析装置、方法及びプログラムの第1の実施形態を、図面を参照しながら詳述する。
第1の実施形態の形態素解析装置は、例えば、パソコンなどの情報処理装置に形態素解析プログラム(データ群を含む)がインストールされて構築され、機能的には、図1に示す構成を有する。なお、第1の実施形態の形態素解析装置が専用機として構築されていても良く、各機能部が1又は複数のASICなどで実現されたものであっても良い。また、形態素解析プログラムのインストール方法は、記録媒体からのインストールであっても良く、他の装置からのダウンロードによるインストールであっても良く、キーボードなどを用いた入力による方法であっても良い。
次に、第1の実施形態の形態素解析装置100の動作(第1の実施形態の形態素解析方法)を、図2のフローチャートを参照しながら説明する。図2は、入力された文を形態素解析装置100が形態素解析して出力するまでの処理の流れを示すフローチャートである。
ω1t1 … ωntn
と表現され、このような仮説の中から最も生成確率の高いものを解として選べばよいため、(1)式のようにn−gramモデルを用いることにより、^ωi及び^tiを計算することになる。
第1の実施形態によれば、形態素解析を行う際に、解析対象文中に未知語が含まれている場合でも、頑健に解析を行うことができる。
次に、本発明による形態素解析装置、方法及びプログラムの第2の実施形態を、図面を参照しながら詳述する。
(b)文字の二つ組(ci’−2ci’−1,ci’−1ci’,ci’−1ci’+1,ci’ci’+1,ci’+1ci’+2)
(c)文字種(yi’−2,yi’−1,yi’,yi’+1,yi’+2)
(d)文字種の二つ組(yi’−2yi’−1,yi’−1yi’,yi’−1yi’+1,yi’yi’+1,yi’+1yi’+2)
文字の種類としては、例えば、アルファベット、数字、記号、漢字、ひらがな、カタカナなどを用いることができる。生成確率の計算後は、第1の実施形態の場合と同様に、最適解の探索(204)、未知語の復元(205)、結果の出力(206)が行われる。
上記各実施形態では、未知語仮説生成部が解析対象文の全ての文字を、未知語構成文字として仮説を生成するものを示したが、解析対象文の一部の文字を、未知語構成文字として仮説を生成するものであっても良い。例えば、既知語仮説生成部113が形態素辞書格納部121の辞書から探索することができなかった部分の前後に所定量の部分(所定数の形態素の部分、所定数の文字数の部分)を加えた解析対象文の一部の文字を、未知語構成文字として未知語仮説生成部が仮説を生成するものであっても良い。
110、110A…解析部、
111…入力部、112…仮説生成部、113…既知語仮説生成部、114…未知語構成文字仮説生成部、115、115A…生成確率計算部、116…解探索部、117…未知語復元部、118…出力部、
120、120A…モデル格納部、
121…形態素辞書格納部、122…n−gramモデルパラメータ格納部、123…最大エントロピーモデルパラメータ格納部
130、130A…モデル学習部、
131…品詞タグ付きコーパス格納部、132…n−gramモデルパラメータ計算部、133…最大エントロピーモデルパラメータ計算部。
Claims (7)
- 形態素解析対象文に対して、形態素解析結果の候補である仮説を1又は複数生成するものであって、辞書に登録されている既知語の仮説を生成する既知語仮説生成部と、未知語を構成する文字列を文字単位に分解して文字単位の仮説を生成する未知語文字生成部とを有し、生成する仮説の中に、既知語の仮説と、未知語を構成する文字単位の仮説とが混在したものがある仮説生成手段と、
形態素やn−gramや未知語を構成する文字の確率的なモデルの情報を格納しているモデル格納手段と、
上記各仮説に対し、その仮説の生成確率を、上記モデル格納手段に格納されている確率的なモデルの情報を用いて求める生成確率計算手段と、
上記各仮説の生成確率に基づき、解となる仮説を探索する解探索手段と、
探索された解の中に未知語を構成する文字がある場合に、それらの文字を結合して未知語を復元する未知語復元手段と
を備えたことを特徴とする形態素解析装置。 - 上記モデル格納手段には、未知語を構成する文字で条件付けられた、該当文字の位置を規定する文字位置タグの条件付き確率として、その未知語構成文字の前後の文字やその文字種を素性とした最大エントロピーモデルの情報が格納されていることを特徴とする請求項1に記載の形態素解析装置。
- 最大エントロピーモデルによる計算を行うための素性として、注目している文字とその前後の文字の一つ組と二つ組、およびそれらの文字種の一つ組と二つ組とが使用されたことを特徴とする請求項2に記載の形態素解析装置。
- 仮説生成手段、生成確率計算手段、解探索手段、未知語復元手段を備える形態素解析方法において、
上記仮説生成手段が、形態素解析対象文に対して、形態素解析結果の候補である仮説を1又は複数生成するものであって、辞書に登録されている既知語の仮説を生成する既知語仮説生成部と、未知語を構成する文字列を文字単位に分解して文字単位の仮説を生成する未知語文字生成部とを有し、生成する仮説の中に、既知語の仮説と、未知語を構成する文字単位の仮説とが混在したものがある仮説生成工程と、
上記生成確率計算手段が、形態素やn−gramや未知語を構成する文字の確率的なモデルの情報を格納しているモデル格納手段の格納情報を用い、上記各仮説に対し、その仮説の生成確率を求める生成確率計算工程と、
上記解探索手段が、上記各仮説の生成確率に基づき、解となる仮説を探索する解探索工程と、
上記未知語復元手段が、探索された解の中に未知語を構成する文字がある場合に、それらの文字を結合して未知語を復元する未知語復元工程と
を含むことを特徴とする形態素解析方法。 - 上記モデル格納手段には、未知語を構成する文字で条件付けられた、該当文字の位置を規定する文字位置タグの条件付き確率として、その未知語構成文字の前後の文字やその文字種を素性とした最大エントロピーモデルの情報が格納されていることを特徴とする請求項4に記載の形態素解析方法。
- 最大エントロピーモデルによる計算を行うための素性として、注目している文字とその前後の文字の一つ組と二つ組、およびそれらの文字種の一つ組と二つ組とが使用されたことを特徴とする請求項5に記載の形態素解析方法。
- コンピュータを、
形態素解析対象文に対して、形態素解析結果の候補である仮説を1又は複数生成するものであって、辞書に登録されている既知語の仮説を生成する既知語仮説生成部と、未知語を構成する文字列を文字単位に分解して文字単位の仮説を生成する未知語文字生成部とを有し、生成する仮説の中に、既知語の仮説と、未知語を構成する文字単位の仮説とが混在したものがある仮説生成手段、
形態素やn−gramや未知語を構成する文字の確率的なモデルの情報を格納しているモデル格納手段の格納情報を用い、上記各仮説に対し、その仮説の生成確率を、上記モデル格納手段に格納されている確率的なモデルの情報を用いて求める生成確率計算手段、
上記各仮説の生成確率に基づき、解となる仮説を探索する解探索手段、
探索された解の中に未知語を構成する文字がある場合に、それらの文字を結合して未知語を復元する未知語復元手段
として機能させる形態素解析プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004206996A JP3998668B2 (ja) | 2004-07-14 | 2004-07-14 | 形態素解析装置、方法及びプログラム |
US11/179,619 US20060015317A1 (en) | 2004-07-14 | 2005-07-13 | Morphological analyzer and analysis method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004206996A JP3998668B2 (ja) | 2004-07-14 | 2004-07-14 | 形態素解析装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006031228A JP2006031228A (ja) | 2006-02-02 |
JP3998668B2 true JP3998668B2 (ja) | 2007-10-31 |
Family
ID=35600555
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004206996A Active JP3998668B2 (ja) | 2004-07-14 | 2004-07-14 | 形態素解析装置、方法及びプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20060015317A1 (ja) |
JP (1) | JP3998668B2 (ja) |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5125404B2 (ja) * | 2007-10-23 | 2013-01-23 | 富士通株式会社 | 省略語判定装置、コンピュータプログラム、テキスト解析装置及び音声合成装置 |
JP2009193356A (ja) * | 2008-02-14 | 2009-08-27 | Canon Inc | 画像処理装置、画像処理方法、プログラム、及び記憶媒体 |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US8046222B2 (en) * | 2008-04-16 | 2011-10-25 | Google Inc. | Segmenting words using scaled probabilities |
JP5199901B2 (ja) * | 2009-01-21 | 2013-05-15 | 日本電信電話株式会社 | 言語モデル作成方法、言語モデル作成装置および言語モデル作成プログラム |
US9583095B2 (en) * | 2009-07-17 | 2017-02-28 | Nec Corporation | Speech processing device, method, and storage medium |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8527270B2 (en) | 2010-07-30 | 2013-09-03 | Sri International | Method and apparatus for conducting an interactive dialogue |
US9576570B2 (en) * | 2010-07-30 | 2017-02-21 | Sri International | Method and apparatus for adding new vocabulary to interactive translation and dialogue systems |
CN103034628B (zh) * | 2011-10-27 | 2015-12-02 | 微软技术许可有限责任公司 | 用于将语言项目规范化的功能装置 |
US8909516B2 (en) * | 2011-10-27 | 2014-12-09 | Microsoft Corporation | Functionality for normalizing linguistic items |
KR101475284B1 (ko) * | 2011-11-29 | 2014-12-23 | 에스케이텔레콤 주식회사 | 작문 자동 평가를 위해 샬로우 파서를 이용한 오류 검출 장치 및 방법 |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
KR101509727B1 (ko) * | 2013-10-02 | 2015-04-07 | 주식회사 시스트란인터내셔널 | 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법 |
JP6145059B2 (ja) * | 2014-03-04 | 2017-06-07 | 日本電信電話株式会社 | モデル学習装置、形態素解析装置、及び方法 |
US10078631B2 (en) * | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9740687B2 (en) | 2014-06-11 | 2017-08-22 | Facebook, Inc. | Classifying languages for objects and entities |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
BR112017002310B1 (pt) | 2014-08-06 | 2020-05-12 | Unilever N.V. | Processo para preparação de uma composição particulada antimicrobiana e composição de higiene ou de cuidados pessoais |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
JP6619932B2 (ja) * | 2014-12-26 | 2019-12-11 | Kddi株式会社 | 形態素解析装置およびプログラム |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10586168B2 (en) | 2015-10-08 | 2020-03-10 | Facebook, Inc. | Deep translations |
US9990361B2 (en) * | 2015-10-08 | 2018-06-05 | Facebook, Inc. | Language independent representations |
IL242218B (en) * | 2015-10-22 | 2020-11-30 | Verint Systems Ltd | A system and method for maintaining a dynamic dictionary |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11416555B2 (en) * | 2017-03-21 | 2022-08-16 | Nec Corporation | Data structuring device, data structuring method, and program storage medium |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10902738B2 (en) * | 2017-08-03 | 2021-01-26 | Microsoft Technology Licensing, Llc | Neural models for key phrase detection and question generation |
CN109271502B (zh) * | 2018-09-25 | 2020-08-07 | 武汉大学 | 一种基于自然语言处理的空间查询主题的归类方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999063456A1 (fr) * | 1998-06-04 | 1999-12-09 | Matsushita Electric Industrial Co., Ltd. | Dispositif de preparation de regles de conversion du langage, dispositif de conversion du langage et support d'enregistrement de programme |
JP4001283B2 (ja) * | 2003-02-12 | 2007-10-31 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 形態素解析装置および自然言語処理装置 |
JP3768205B2 (ja) * | 2003-05-30 | 2006-04-19 | 沖電気工業株式会社 | 形態素解析装置、形態素解析方法及び形態素解析プログラム |
JP3956368B2 (ja) * | 2003-10-16 | 2007-08-08 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 形態素解析システム |
-
2004
- 2004-07-14 JP JP2004206996A patent/JP3998668B2/ja active Active
-
2005
- 2005-07-13 US US11/179,619 patent/US20060015317A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20060015317A1 (en) | 2006-01-19 |
JP2006031228A (ja) | 2006-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3998668B2 (ja) | 形態素解析装置、方法及びプログラム | |
JP3768205B2 (ja) | 形態素解析装置、形態素解析方法及び形態素解析プログラム | |
JP4215418B2 (ja) | 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム | |
JP3986531B2 (ja) | 形態素解析装置及び形態素解析プログラム | |
JP4968036B2 (ja) | 韻律語グルーピング方法及び装置 | |
JP2003514304A5 (ja) | ||
KR20140119763A (ko) | 사용자 데이터 입력 예측 | |
JP2020087353A (ja) | 要約文生成方法、要約文生成プログラム及び要約文生成装置 | |
JP4266222B2 (ja) | 単語翻訳装置およびそのプログラム並びにコンピュータ読み取り可能な記録媒体 | |
JP5097802B2 (ja) | ローマ字変換を用いる日本語自動推薦システムおよび方法 | |
JP2015084047A (ja) | 文集合作成装置、文集合作成方法および文集合作成プログラム | |
JP3309174B2 (ja) | 文字認識方法及び装置 | |
JP3938234B2 (ja) | 自然言語処理装置 | |
JP6261669B2 (ja) | クエリ校正システムおよび方法 | |
JP4084515B2 (ja) | アルファベット文字・日本語読み対応付け装置と方法およびアルファベット単語音訳装置と方法ならびにその処理プログラムを記録した記録媒体 | |
JP5523929B2 (ja) | テキスト要約装置、テキスト要約方法及びテキスト要約プログラム | |
JP2019144844A (ja) | 形態素解析学習装置、形態素解析装置、方法、及びプログラム | |
WO2007088902A1 (ja) | 文字処理装置、方法、プログラムおよび記録媒体 | |
JP4113204B2 (ja) | 機械翻訳装置、その方法およびプログラム | |
JP2010170252A (ja) | 言語モデル作成方法、言語モデル作成装置および言語モデル作成プログラム | |
JP2007018462A (ja) | 機械翻訳装置、およびプログラム | |
Bellegarda | Speech recognition experiments using multi-span statistical language models | |
JP5679346B2 (ja) | 識別的音声認識精度推定装置、識別的音声認識精度推定方法、プログラム | |
JP5795985B2 (ja) | 形態素解析装置、形態素解析方法および形態素解析プログラム | |
JP2004280467A (ja) | 翻訳装置、翻訳方法、及びそのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070424 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070622 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070710 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070710 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070807 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070807 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 3998668 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100817 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100817 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110817 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120817 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130817 Year of fee payment: 6 |