JP2012014548A - 単語境界判定装置 - Google Patents
単語境界判定装置 Download PDFInfo
- Publication number
- JP2012014548A JP2012014548A JP2010151733A JP2010151733A JP2012014548A JP 2012014548 A JP2012014548 A JP 2012014548A JP 2010151733 A JP2010151733 A JP 2010151733A JP 2010151733 A JP2010151733 A JP 2010151733A JP 2012014548 A JP2012014548 A JP 2012014548A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- word boundary
- feature amount
- character
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】単語境界判定装置1は、2文字以上から構成される一の文字列から、一の文字列の一部を構成する1文字以上の文字列(第1文字列)、および、一の文字列の一部を構成する1文字以上の文字列であって一の文字列において第1文字列に続く文字列(第2文字列)を抽出する抽出部22と、抽出された第1文字列、第2文字列の組合せ毎に、ラベル付学習データ内における、第1文字列に続く第2文字列の出現回数および非出現回数、並びに、第1文字列以外の文字列に続く第2文字列の出現回数および非出現回数を、第1文字列と第2文字列の間の単語境界の有無別に集計する集計部23と、該集計値を用いてモデル検定を行った上でモデル選択を行うことで一の文字列の特徴量を算出する特徴量算出部31と、該特徴量を使用した識別器14aを用いて未知文字列の単語境界を判定する単語境界判定部14とを備える。
【選択図】図1
Description
(集計回数の例)
第1の回数:第1文字列に続いて第2文字列が出現し、かつ単語境界が存在する回数
第2の回数:第1文字列に続いて第2文字列以外の文字列が出現し、かつ単語境界が存在する回数
第3の回数:第1文字列以外の文字列に続いて第2文字列が出現し、かつ単語境界が存在する回数
第4の回数:第1文字列以外の文字列に続いて第2文字列以外の文字列が出現し、かつ単語境界が存在する回数
第5の回数:第1文字列に続いて第2文字列が出現し、かつ単語境界が存在しない回数
第6の回数:第1文字列に続いて第2文字列以外の文字列が出現し、かつ単語境界が存在しない回数
第7の回数:第1文字列以外の文字列に続いて第2文字列が出現し、かつ単語境界が存在しない回数
第8の回数:第1文字列以外の文字列に続いて第2文字列以外の文字列が出現し、かつ単語境界が存在しない第8の回数
なお、特徴量算出部31は、同様に、判定対象データ記憶部12に記憶されている未知文字列の特徴量を算出する。
(集計文字列のパターン)
第1のパターン:第1文字列(s1)=「食」,第2文字列(s2)=「べ」
第2のパターン:第1文字列(s1)=「食べ」,第2文字列(s2)=「る」
第3のパターン:第1文字列(s1)=「食べる」,第2文字列(s2)=「と」
例えば、上述の第3のパターンの例であるが、第1文字列(s1)が「食べる」、第2文字列(s2)が「と」である場合、集計部23は、ラベル付学習データ内において「食べる‖と」の登場回数をカウントする。
例えば、第1文字列(s1)が「食べる」、第2文字列(s2)が「と」である場合、集計部23は、ラベル付学習データ内において「食べる‖前」等の登場回数をカウントする。
例えば、第1文字列(s1)が「食べる」、第2文字列(s2)が「と」である場合、集計部23は、ラベル付学習データ内において「明後日‖と」等の登場回数をカウントする。
例えば、第1文字列(s1)が「食べる」、第2文字列(s2)が「と」である場合、集計部23は、ラベル付学習データ内において「明後日‖に」等の登場回数をカウントする。
例えば、上述の第3のパターンの例であるが、第1文字列(s1)が「食べる」、第2文字列(s2)が「と」である場合、集計部23は、ラベル付学習データ内において、実際に存在するか不明であるが、「食べると」の登場回数をカウントする。
例えば、上述の第3のパターンの例であるが、第1文字列(s1)が「食べる」、第2文字列(s2)が「と」である場合、集計部23は、ラベル付学習データ内において、実際に存在するか不明であるが、「食べる前」等の登場回数をカウントする。
例えば、第1文字列(s1)が「食べる」、第2文字列(s2)が「と」である場合、集計部23は、ラベル付学習データ内において「いもうと」等の登場回数をカウントする。
例えば、第1文字列(s1)が「食べる」、第2文字列(s2)が「と」である場合、集計部23は、ラベル付学習データ内において「くだもの」等の登場回数をカウントする。
なお、AIC(M1)は、第1文字列(s1)と単語境界tが従属関係にあることを示す値である。上記式(2)においてMLLは下記式(3)により算出される。
なお、AIC(M2)は、第2文字列(s2)と単語境界tが従属関係にあることを示す値である。上記式(4)においてMLLは下記式(5)により算出される。
なお、AIC(M3)は、第1文字列(s1)と第2文字列(s2)と単語境界tが従属関係にあることを示す値である。上記式(6)においてMLLは下記式(7)により算出される。
なお、AIC(M0)は、第1文字列(s1)と第2文字列(s2)と単語境界tが独立関係にあることを示す値である。上記式(8)においてMLLは下記式(9)により算出する。
例えば、特徴量算出部31は、図4に示すアルゴリズムによって関連強度E(スコアE)を算出する。
特徴量{t s1,s2,n11,n12,n13,n14,n21,n22,n23,n24,AIC(M0),AIC(f),E}
なお、AIC(f)は、AIC(M0)、AIC(M1)、AIC(M2)、AIC(M3)のうち最小であるものである。
2…集計装置
3…特徴量算出装置
11…単語境界判定用データ入力部
12…判定対象データ記憶部
13…判定対象データ入力部
14a…識別器
14…単語境界判定部
15…判定結果記憶部
21…学習データ記憶部
22…抽出部
23…集計部
24…集計データ記憶部
25…正規化処理部
31…特徴量算出部
32…特徴量記憶部
Claims (4)
- 文章に係る文章データと前記文章における単語境界を示すラベルとを含むラベル付学習データを用いて、単語境界が未知である未知文字列の単語境界を判定する単語境界判定装置であって、
2文字以上から構成される一の文字列から、前記一の文字列の一部を構成する1文字以上の文字列である第1文字列、および、前記一の文字列の一部を構成する1文字以上の文字列であって前記一の文字列において前記第1文字列に続く文字列である第2文字列を抽出する抽出部と、
前記抽出部によって抽出された前記第1文字列および前記第2文字列の組合せ毎に、前記文章内における、前記第1文字列に続く前記第2文字列の出現回数および非出現回数、並びに、前記第1文字列以外の文字列に続く前記第2文字列の出現回数および非出現回数を、前記第1文字列と前記第2文字列の間の前記単語境界の有無別に集計する集計部と、
前記集計部によって集計された集計値を用いて、モデル検定を行った上でモデル選択を行うことで前記一の文字列の特徴量を算出する特徴量算出部と、
前記特徴量算出部によって算出された特徴量を使用した識別器を用いて、前記未知文字列の単語境界を判定する単語境界判定部と
を備えることを特徴とする単語境界判定装置。 - 前記集計部は、前記一の文字列に関する集計値として、前記第1文字列に続いて前記第2文字列が出現し、かつ、前記単語境界が存在する第1の回数、前記第1文字列に続いて前記第2文字列以外の文字列が出現し、かつ、前記単語境界が存在する第2の回数、前記第1文字列以外の文字列に続いて前記第2文字列が出現し、かつ、前記単語境界が存在する第3の回数、前記第1文字列以外の文字列に続いて前記第2文字列以外の文字列が出現し、かつ、前記単語境界が存在する第4の回数、前記第1文字列に続いて前記第2文字列が出現し、かつ、前記単語境界が存在しない第5の回数、前記第1文字列に続いて前記第2文字列以外の文字列が出現し、かつ、前記単語境界が存在しない第6の回数、前記第1文字列以外の文字列に続いて前記第2文字列が出現し、かつ、前記単語境界が存在しない第7の回数、前記第1文字列以外の文字列に続いて前記第2文字列以外の文字列が出現し、かつ、前記単語境界が存在しない第8の回数を集計することを特徴とする請求項1に記載の単語境界判定装置。
- 前記特徴量算出部は、前記集計部によって集計された集計値を用いて、情報量基準に基づくモデル検定を行った上でモデル選択を行い、前記一の文字列の特徴量を算出することを特徴とする請求項1又は請求項2に記載の単語境界判定装置。
- 前記特徴量算出部は、前記集計部によって集計された集計値を用いて、AICに基づくモデル検定を行った上でモデル選択を行い、前記一の文字列の特徴量を算出することを特徴とする請求項3に記載の単語境界判定装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010151733A JP5466588B2 (ja) | 2010-07-02 | 2010-07-02 | 単語境界判定装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010151733A JP5466588B2 (ja) | 2010-07-02 | 2010-07-02 | 単語境界判定装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012014548A true JP2012014548A (ja) | 2012-01-19 |
JP5466588B2 JP5466588B2 (ja) | 2014-04-09 |
Family
ID=45600873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010151733A Expired - Fee Related JP5466588B2 (ja) | 2010-07-02 | 2010-07-02 | 単語境界判定装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5466588B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022511593A (ja) * | 2019-10-28 | 2022-02-01 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | Poi状態情報を取得する方法、装置、デバイス、プログラム及びコンピュータ記憶媒体 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006031295A (ja) * | 2004-07-14 | 2006-02-02 | Internatl Business Mach Corp <Ibm> | 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、 |
-
2010
- 2010-07-02 JP JP2010151733A patent/JP5466588B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006031295A (ja) * | 2004-07-14 | 2006-02-02 | Internatl Business Mach Corp <Ibm> | 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、 |
Non-Patent Citations (2)
Title |
---|
CSNG200900111007; 柳原正 他3名: '情報量基準に基づいた単語境界推定方式の提案' 情報処理学会研究報告 Vol.2009,No.36(2009-NL-190), 20090318, 43-48頁, 社団法人情報処理学会 * |
JPN6013064412; 柳原正 他3名: '情報量基準に基づいた単語境界推定方式の提案' 情報処理学会研究報告 Vol.2009,No.36(2009-NL-190), 20090318, 43-48頁, 社団法人情報処理学会 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022511593A (ja) * | 2019-10-28 | 2022-02-01 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | Poi状態情報を取得する方法、装置、デバイス、プログラム及びコンピュータ記憶媒体 |
JP7214949B2 (ja) | 2019-10-28 | 2023-01-31 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | Poi状態情報を取得する方法、装置、デバイス、プログラム及びコンピュータ記憶媒体 |
US11709999B2 (en) | 2019-10-28 | 2023-07-25 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for acquiring POI state information, device and computer storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP5466588B2 (ja) | 2014-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3882048B2 (ja) | 質問応答システムおよび質問応答処理方法 | |
JP2019504413A (ja) | 絵文字を提案するためのシステムおよび方法 | |
Donato et al. | Investigating redundancy in emoji use: Study on a twitter based corpus | |
JP2015201185A (ja) | 講義ビデオのトピックスを特定する方法及び非一時的なコンピュータ可読媒体 | |
JP5846959B2 (ja) | 基本語彙抽出装置、及びプログラム | |
US11126783B2 (en) | Output apparatus and non-transitory computer readable medium | |
JP2003223456A (ja) | 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法 | |
JP5768492B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP5679194B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
Das et al. | Going beyond corr-lda for detecting specific comments on news & blogs | |
CN111274366A (zh) | 搜索推荐方法及装置、设备、存储介质 | |
TWI681304B (zh) | 自適應性調整關連搜尋詞的系統及其方法 | |
JP5952441B2 (ja) | 秘密データを識別する方法、電子装置及びコンピュータ読み取り可能な記録媒体 | |
JP5466588B2 (ja) | 単語境界判定装置 | |
JP2008217064A (ja) | 要望抽出装置、方法およびプログラム | |
JP5286125B2 (ja) | 単語境界決定装置および形態素解析装置 | |
CN109670304A (zh) | 恶意代码家族属性的识别方法、装置及电子设备 | |
Zanoli et al. | A transformation-driven approach for recognizing textual entailment | |
JP6085149B2 (ja) | 機能実行指示システム、機能実行指示方法及び機能実行指示プログラム | |
WO2019192122A1 (zh) | 文档主题参数提取方法、产品推荐方法、设备及存储介质 | |
JP5117590B2 (ja) | 文書処理装置およびプログラム | |
JP5145288B2 (ja) | 類義語辞書構築装置及び方法、コンピュータプログラム | |
JP2019074982A (ja) | 情報検索装置、検索処理方法、およびプログラム | |
Alasiry et al. | Extraction and evaluation of candidate named entities in search engine queries | |
JP7147380B2 (ja) | タイプ推定方法、情報処理装置およびタイプ推定プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130305 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130305 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131224 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140107 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140124 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |