JP2013171328A - 偏り述部抽出装置、方法、及びプログラム - Google Patents
偏り述部抽出装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2013171328A JP2013171328A JP2012033242A JP2012033242A JP2013171328A JP 2013171328 A JP2013171328 A JP 2013171328A JP 2012033242 A JP2012033242 A JP 2012033242A JP 2012033242 A JP2012033242 A JP 2012033242A JP 2013171328 A JP2013171328 A JP 2013171328A
- Authority
- JP
- Japan
- Prior art keywords
- predicate
- extraction
- label
- normalized
- bias
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
【解決手段】述部正規化部20で、2つの文書集合各々に含まれる各文書に対して形態素解析を行い、機能表現意味ラベル辞書28に基づいて、各機能表現に意味ラベルを付与し、不要な機能表現を削除して、述部を正規化する。偏り述部粒度選択部30で、抽出する偏り述部の粒度として「内容語+意味ラベル」か「表層述部」かを選択し、選択された粒度に従って正規化述部を抽出する。偏り述部抽出部40aまたは40bで、選択された粒度に従って抽出された正規化述部を対象に、各述部がどれだけの文書に出現したか(DF)を計算し、各述部のDFを用いて、各述部が抽出対象の文書集合に偏って出現しているか否かを検定するためのχ2値を計算し、χ2値≧閾値の場合には、その述部を偏り述部として抽出する。
【選択図】図1
Description
・結構使いづらいですよぉ。
・値段が高い。
・使いにくい。
・XXで購入しました。
・とにかく使いづらいです!
・価格が高いです。
・毎日使ってます!
・みなさんにお勧めしたい。
・XXで購入した。
・いつも使っています。
・ぜひお勧めしたいです。
・使いやすいですよ。
=使い(う)<内容語>+づらい<非自立性形容詞>
+です<機能語> (1)
20 述部正規化部
22 形態素解析部
24 意味ラベル付与・述部抽出部
26 不要機能表現削除部
28 機能表現意味ラベル辞書
30 偏り述部粒度選択部
40a 偏り述部抽出部(内容語+意味ラベル)
40b 偏り述部抽出部(表層述部)
42a、42b 頻度計算部
44a、44b 偏り検定部
46a、46b 抽出部
Claims (5)
- 複数の文書集合に含まれる複数の文書各々を形態素解析した解析結果に基づいて、前記文書各々の述部を抽出すると共に、該述部に含まれる機能表現に該機能表現が表す意味を示すラベルを付与し、該ラベルに基づいて、前記述部が表す出来事の意味に影響を与える機能表現以外を削除することにより、前記文書各々の述部を正規化する述部正規化手段と、
前記形態素解析の解析結果及び前記ラベルに基づく粒度に従った、前記述部正規化手段により正規化された述部の出現頻度、または前記正規化された述部が出現する文書の数に基づいて、前記複数の文書集合のいずれかの文書集合に偏って出現する偏り述部を抽出する抽出手段と、
を含む偏り述部抽出装置。 - 前記粒度として、前記正規化された述部の内容語と前記ラベルとの組み合わせを用いるか、または、前記正規化された述部の表層形を用いるかを選択する選択手段を含む請求項1記載の偏り述部抽出装置。
- 述部正規化手段と、抽出手段とを含む偏り述部抽出装置における述部抽出方法であって、
前記述部正規化手段は、複数の文書集合に含まれる複数の文書各々を形態素解析した解析結果に基づいて、前記文書各々の述部を抽出すると共に、該述部に含まれる機能表現に該機能表現が表す意味を示すラベルを付与し、該ラベルに基づいて、前記述部が表す出来事の意味に影響を与える機能表現以外を削除することにより、前記文書各々の述部を正規化し、
前記抽出手段は、前記形態素解析の解析結果及び前記ラベルに基づく粒度に従った、前記述部正規化手段により正規化された述部の出現頻度、または前記正規化された述部が出現する文書の数に基づいて、前記複数の文書集合のいずれかの文書集合に偏って出現する偏り述部を抽出する
述部抽出方法。 - 選択手段を更に含む偏り述部抽出装置における述部抽出方法であって、
前記選択手段は、前記粒度として、前記正規化された述部の内容語と前記ラベルとの組み合わせを用いるか、または、前記正規化された述部の表層形を用いるかを選択する
請求項3記載の述部抽出方法。 - コンピュータを、請求項1または請求項2記載の偏り述部抽出装置を構成する各手段として機能させるための述部抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012033242A JP5646522B2 (ja) | 2012-02-17 | 2012-02-17 | 偏り述部抽出装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012033242A JP5646522B2 (ja) | 2012-02-17 | 2012-02-17 | 偏り述部抽出装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013171328A true JP2013171328A (ja) | 2013-09-02 |
JP5646522B2 JP5646522B2 (ja) | 2014-12-24 |
Family
ID=49265238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012033242A Active JP5646522B2 (ja) | 2012-02-17 | 2012-02-17 | 偏り述部抽出装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5646522B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023144925A1 (ja) * | 2022-01-26 | 2023-08-03 | 三菱電機株式会社 | 学習装置、推定装置、学習方法、推定方法、学習プログラム、及び推定プログラム |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004030177A (ja) * | 2002-06-25 | 2004-01-29 | Nec Corp | テキスト分析システム、テキスト分析方法、および、テキスト分析プログラム |
JP2007241635A (ja) * | 2006-03-08 | 2007-09-20 | Nec Corp | 文書検索装置、情報処理装置、検索結果出力方法、検索結果表示方法およびプログラム |
JP2010056682A (ja) * | 2008-08-26 | 2010-03-11 | National Institute Of Information & Communication Technology | 電子メール受信装置及び電子メール受信方法、電子メール送信装置及び電子メール送信方法、メール送信サーバ |
JP2011145844A (ja) * | 2010-01-14 | 2011-07-28 | Nippon Telegr & Teleph Corp <Ntt> | 述部機能表現正規化方法、その装置及びプログラム |
JP2011164678A (ja) * | 2010-02-04 | 2011-08-25 | Nippon Telegr & Teleph Corp <Ntt> | 機能表現補完装置、方法及びプログラム |
-
2012
- 2012-02-17 JP JP2012033242A patent/JP5646522B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004030177A (ja) * | 2002-06-25 | 2004-01-29 | Nec Corp | テキスト分析システム、テキスト分析方法、および、テキスト分析プログラム |
JP2007241635A (ja) * | 2006-03-08 | 2007-09-20 | Nec Corp | 文書検索装置、情報処理装置、検索結果出力方法、検索結果表示方法およびプログラム |
JP2010056682A (ja) * | 2008-08-26 | 2010-03-11 | National Institute Of Information & Communication Technology | 電子メール受信装置及び電子メール受信方法、電子メール送信装置及び電子メール送信方法、メール送信サーバ |
JP2011145844A (ja) * | 2010-01-14 | 2011-07-28 | Nippon Telegr & Teleph Corp <Ntt> | 述部機能表現正規化方法、その装置及びプログラム |
JP2011164678A (ja) * | 2010-02-04 | 2011-08-25 | Nippon Telegr & Teleph Corp <Ntt> | 機能表現補完装置、方法及びプログラム |
Non-Patent Citations (2)
Title |
---|
CSND200900479003; 杉本 昭彦 外1名: '指標編 単なる件数把握からの脱却を目指し成果検証に役立つ新指標の開発進む' 日経ネットマーケティング 第20号, 20090525, P.14〜15, 日経BP社 * |
JPN6013063868; 杉本 昭彦 外1名: '指標編 単なる件数把握からの脱却を目指し成果検証に役立つ新指標の開発進む' 日経ネットマーケティング 第20号, 20090525, P.14〜15, 日経BP社 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023144925A1 (ja) * | 2022-01-26 | 2023-08-03 | 三菱電機株式会社 | 学習装置、推定装置、学習方法、推定方法、学習プログラム、及び推定プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5646522B2 (ja) | 2014-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107644011B (zh) | 用于细粒度医疗实体提取的系统和方法 | |
Stamatatos et al. | Clustering by authorship within and across documents | |
Kaur et al. | Sentiment analysis approach based on N-gram and KNN classifier | |
JP5389273B1 (ja) | 文脈解析装置および文脈解析方法 | |
US11755841B2 (en) | Method for updating a knowledge base of a sentiment analysis system | |
WO2017137859A1 (en) | Systems and methods for language feature generation over multi-layered word representation | |
US9600469B2 (en) | Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon | |
US11429790B2 (en) | Automated detection of personal information in free text | |
Kawahara et al. | Rapid development of a corpus with discourse annotations using two-stage crowdsourcing | |
US11386270B2 (en) | Automatically identifying multi-word expressions | |
CN107077640B (zh) | 经由经验归属来分析、资格化和摄取非结构化数据源的系统和处理 | |
Swanson et al. | Extracting the native language signal for second language acquisition | |
Solovyev et al. | Dictionary-based problem phrase extraction from user reviews | |
US10528660B2 (en) | Leveraging word patterns in the language of popular influencers to predict popular trends | |
CN108021595B (zh) | 检验知识库三元组的方法及装置 | |
US20200387668A1 (en) | Text analysis method, non-transitory computer-readable recording medium for storing text analysis program, and text analysis system | |
Putri et al. | Software feature extraction using infrequent feature extraction | |
JP5646522B2 (ja) | 偏り述部抽出装置、方法、及びプログラム | |
Bobicev et al. | Can anonymous posters on medical forums be reidentified? | |
Tungthamthiti et al. | Sentiment analyzer with rich features for ironic and sarcastic tweets | |
Gutiérrez et al. | Sentiment groups as features of a classification model using a spanish sentiment lexicon: A hybrid approach | |
Alsudais et al. | Corpus periodization framework to periodize a temporally ordered text corpus | |
Jayathilaka et al. | Making sense of large volumes of unstructured email responses | |
CN114492409B (zh) | 文件内容的评价方法、装置、电子设备及程序产品 | |
Puspitasari et al. | Identify Fake Author in Indonesia Crime Cases: A Forensic Authorsip Analysis Using N-gram and Stylometric Features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131219 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140107 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140305 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141007 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141105 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5646522 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |