JP5286125B2 - 単語境界決定装置および形態素解析装置 - Google Patents
単語境界決定装置および形態素解析装置 Download PDFInfo
- Publication number
- JP5286125B2 JP5286125B2 JP2009071701A JP2009071701A JP5286125B2 JP 5286125 B2 JP5286125 B2 JP 5286125B2 JP 2009071701 A JP2009071701 A JP 2009071701A JP 2009071701 A JP2009071701 A JP 2009071701A JP 5286125 B2 JP5286125 B2 JP 5286125B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- string
- word
- degree
- unknown
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
以下、本発明の第1の実施形態について図面を参照して詳細に説明する。本発明の第1の実施形態による形態素解析装置1は、図1に示すように、単語境界決定部10、品詞推定部20、辞書登録部30、形態素解析エンジン40、未知文字列記憶部90、学習データ記憶部91、品詞無単語データ記憶部93、品詞推定用データ記憶部94、品詞付単語データ記憶部95、辞書登録用データ記憶部96および形態素解析用辞書データ記憶部97を備える。単語境界決定部10は、文字列集計部110、単語境界推定部120および文字列集計データ記憶部190を備える。
以下、本発明の第2の実施形態について説明する。本発明の第2の実施形態による形態素解析装置2は、本発明の第1の実施形態による形態素解析装置1と単語の境界推定機能を異にする。具体的には、形態素解析装置1における境界推定機能は、文字(列)間の結合度(関連度)に着目し、単語の境界を推定するのに対して、形態素解析装置2における境界推定機能は、ラベル付特徴量データを用いて、n文字の未知文字列があったとき、未知文字列内のn−1個の文字間の区切位置が単語の境界となるか否かを識別(推定)する。なお、ラベルとは、単語の境界となるか否かの判定結果を示す情報である。形態素解析装置2においては、単語の境界となる旨を示す判定結果を示すラベルとして「+1」、単語の境界とならない旨の判定結果を示すラベルとして「−1」を用いるが、他のラベルを用いてもよい。
+1:a(D1)111,a(D1)112,a(D1)121,a(D1)122, …,a(D1)621,a(D1)622
−1:a(D2)111,a(D2)112,a(D2)121,a(D2)122, a(D2)211,a(D2)212,…,a(D2)621
当該ラベル付特徴量データにおいて、各値は、文字列集計部110にて集計される出現回数(a11〜a22)の値であり、特定のドキュメント集合であるD1が存在したとき、1文字目のa(D1)11の値をa(D1)111、1文字目のa(D1)12の値をa(D1)112、…6文字目のa(D1)22の値をa(D1)622のベクトルとして表す。さらに、このベクトルに対し、1文字目と2文字目の間が単語の境界とすべき場合は、ラベル「+1」を、単語の境界とすべきでない場合はラベル「−1」を付加する。以下、2文字目と3文字目の間、3文字目と4文字目の間、…とSVMの数分、同様の処理を行う。
Claims (2)
- 文章に係る文章データを含む学習データを用いて、前記文章から1以上の文字から構成される文字列を抽出し、前記文章内において前記文字列の前後に出現する1以上の文字から構成される文字列の分布を集計した文字列集計データを生成する文字列集計部と、
前記文字列集計部によって生成された前記文字列集計データに基づいて、未知の文字列である未知文字列を2以上の単語に分割する際の境界を推定する単語境界推定部と
を備え、
前記文字列集計部は、
前記文章から抽出した文字列である抽出文字列と、前記抽出文字列の前後に出現する文字列である出現文字列とから構成される組別に、前記出現文字列の出現回数を集計し、前記組別の前記出現回数に基づいて、前記抽出文字列と前記出現文字列との結合の程度を示す結合度を前記組別に算出し、前記組別の前記結合度を前記文字列集計データとして生成し、
前記単語境界推定部は、
前記未知文字列の一部である第1の部分文字列を要素とする第1の組の前記結合度、前記未知文字列の一部である部分文字列であって前記第1の部分文字列の末尾に1文字付加した第2の部分文字列を要素とする第2の組の前記結合度、前記第1の部分文字列の末尾の1文字が不足する第3の部分文字列を要素とする第3の組の前記結合度を前記文字列集計データから取得し、前記第1の組の前記結合度が、前記第2の組の前記結合度および前記第3の組の前記結合度の何れよりも所定の基準値を超えて小さいときは、前記第1の部分文字列と前記第1の部分文字列の後ろの文字列との間に境界が存在すると推定する
ことを特徴とする単語境界決定装置。 - 形態素解析用辞書を用いて形態素解析をする形態素解析エンジンを具備する形態素解析装置であって、
文章に係る文章データを含む学習データを用いて、前記文章から1以上の文字から構成される文字列を抽出し、前記文章内において前記文字列の前後に出現する1以上の文字から構成される文字列の分布を集計した文字列集計データを生成する文字列集計部と、
前記文字列集計部によって生成された前記文字列集計データに基づいて、未知の文字列である未知文字列を2以上の単語に分割する際の境界を推定するとともに、前記境界にて前記未知文字列を分割した各単語を抽出する単語境界推定部と、
前記単語境界推定部によって抽出された前記各単語の品詞を推定し、品詞属性を有する品詞付単語を生成する品詞推定部と、
前記品詞推定部によって生成された前記品詞付単語を前記形態素解析用辞書に登録する辞書登録部と
を備え、
前記文字列集計部は、
前記文章から抽出した文字列である抽出文字列と、前記抽出文字列の前後に出現する文字列である出現文字列とから構成される組別に、前記出現文字列の出現回数を集計し、前記組別の前記出現回数に基づいて、前記抽出文字列と前記出現文字列との結合の程度を示す結合度を前記組別に算出し、前記組別の前記結合度を前記文字列集計データとして生成し、
前記単語境界推定部は、
前記未知文字列の一部である第1の部分文字列を要素とする第1の組の前記結合度、前記未知文字列の一部である部分文字列であって前記第1の部分文字列の末尾に1文字付加した第2の部分文字列を要素とする第2の組の前記結合度、前記第1の部分文字列の末尾の1文字が不足する第3の部分文字列を要素とする第3の組の前記結合度を前記文字列集計データから取得し、前記第1の組の前記結合度が、前記第2の組の前記結合度および前記第3の組の前記結合度の何れよりも所定の基準値を超えて小さいときは、前記第1の部分文字列と前記第1の部分文字列の後ろの文字列との間に境界が存在すると推定する
ことを特徴とする形態素解析装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009071701A JP5286125B2 (ja) | 2009-03-24 | 2009-03-24 | 単語境界決定装置および形態素解析装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009071701A JP5286125B2 (ja) | 2009-03-24 | 2009-03-24 | 単語境界決定装置および形態素解析装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010224887A JP2010224887A (ja) | 2010-10-07 |
JP5286125B2 true JP5286125B2 (ja) | 2013-09-11 |
Family
ID=43042006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009071701A Active JP5286125B2 (ja) | 2009-03-24 | 2009-03-24 | 単語境界決定装置および形態素解析装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5286125B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5566704B2 (ja) * | 2010-01-14 | 2014-08-06 | 株式会社Kddi研究所 | 単語境界判定装置 |
EP2653981A4 (en) * | 2010-12-17 | 2018-01-17 | Rakuten, Inc. | Natural language processing device, method, and program |
JP2015014877A (ja) * | 2013-07-04 | 2015-01-22 | 富士ゼロックス株式会社 | 未知語分類プログラム及び情報処理装置 |
JP6522446B2 (ja) * | 2014-12-26 | 2019-05-29 | Kddi株式会社 | ラベル付与装置、方法およびプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09138801A (ja) * | 1995-11-15 | 1997-05-27 | Oki Electric Ind Co Ltd | 文字列抽出方法とシステム |
JP2004265440A (ja) * | 2004-04-28 | 2004-09-24 | A I Soft Inc | 未知語登録装置および方法並びに記録媒体 |
-
2009
- 2009-03-24 JP JP2009071701A patent/JP5286125B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010224887A (ja) | 2010-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11544459B2 (en) | Method and apparatus for determining feature words and server | |
WO2020244073A1 (zh) | 基于语音的用户分类方法、装置、计算机设备及存储介质 | |
CN109670163B (zh) | 信息识别方法、信息推荐方法、模板构建方法及计算设备 | |
CN105988990B (zh) | 汉语零指代消解装置和方法、模型训练方法和存储介质 | |
JP6334815B2 (ja) | 学習装置、方法、プログラムおよび音声対話システム | |
CN108140019B (zh) | 语言模型生成装置、语言模型生成方法以及记录介质 | |
US10803241B2 (en) | System and method for text normalization in noisy channels | |
US10795878B2 (en) | System and method for identifying answer key problems in a natural language question and answering system | |
WO2017161899A1 (zh) | 一种文本处理方法、装置及计算设备 | |
US9575957B2 (en) | Recognizing chemical names in a chinese document | |
CN112347767B (zh) | 一种文本处理方法、装置及设备 | |
CN107885717B (zh) | 一种关键词提取方法及装置 | |
JP5286125B2 (ja) | 単語境界決定装置および形態素解析装置 | |
TWI681304B (zh) | 自適應性調整關連搜尋詞的系統及其方法 | |
CN110209780B (zh) | 一种问题模板生成方法、装置、服务器及存储介质 | |
US10754880B2 (en) | Methods and systems for generating a replacement query for a user-entered query | |
CN109033070B (zh) | 一种数据处理方法、服务器及计算机可读介质 | |
JP5566704B2 (ja) | 単語境界判定装置 | |
JP2014215970A (ja) | 誤り検出装置、方法、及びプログラム | |
US11907275B2 (en) | Systems and methods for processing text data for disabbreviation of text units | |
JP6429383B2 (ja) | 下位表現抽出装置およびプログラム | |
WO2022204845A1 (zh) | 实体热度生成方法、装置、存储介质及电子设备 | |
CN111241240B (zh) | 行业关键词提取方法及装置 | |
JP5764052B2 (ja) | リンク生成装置、リンク生成方法及びリンク生成プログラム | |
JP6172447B2 (ja) | 関連性判定システム、方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110819 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110823 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130131 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130219 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130408 Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130408 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130507 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130603 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5286125 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |