JP2006072483A - プログラム及び文書処理装置並びに文書処理方法 - Google Patents
プログラム及び文書処理装置並びに文書処理方法 Download PDFInfo
- Publication number
- JP2006072483A JP2006072483A JP2004252407A JP2004252407A JP2006072483A JP 2006072483 A JP2006072483 A JP 2006072483A JP 2004252407 A JP2004252407 A JP 2004252407A JP 2004252407 A JP2004252407 A JP 2004252407A JP 2006072483 A JP2006072483 A JP 2006072483A
- Authority
- JP
- Japan
- Prior art keywords
- data
- occurrence
- expressions
- expression
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【解決手段】本発明の一態様において、コンピュータ2に、第1記憶手段17aに記憶されている文書データ181〜18nを形態素解析し、形態素解析データを作成する機能3、第2記憶手段17bに記憶されている共起パターン24に基づいて、形態素解析データの中から複数の共起表現を抽出する共起抽出機能6、複数の共起表現のそれぞれに含まれている複数の自立語であり、この複数の自立語に用言が含まれている場合にはこの用言の自立語を終止形とした場合の組み合わせが同一の場合に、複数の共起表現を共通の表現でまとめる機能14、文書データ181〜18nと共通の表現とを関係付けた分析データ34を第3記憶手段17gに記憶する機能15を実現させるためのプログラム1aが提供される。
【選択図】 図1
Description
を実現させるためのプログラムが提供される。
本実施の形態では、共起表現を抽出し、共起表現に含まれている複数の自立語を抽出し、複数の自立語について体言の場合はその体言の自立語、用言の場合はこの用言の自立語の終止形を求め、この複数の自立語(用言の場合にはその終止形)の組み合わせを求める。
文字が大きい(/文字[名詞]・が[付属語]/大き[形容詞]・い[活用語尾])
文字も大きい(/文字[名詞]・も[付属語]/大き[形容詞]・い[活用語尾])
文字の大きさ(/文字[名詞]・の[付属語]/大き[形容詞]・さ[活用語尾])
大きい文字(/大き[形容詞]・い[活用語尾]/文字[名詞]・が[付属語])
の全てにおいて、自立語「文字(名詞)」と「大きい(形容詞)」とが含まれる。自立語の間にはさまれている付属語、および「大きい」の活用語尾部分は異なっているが、自立語(用言の場合はその終止形)は「文字(名詞)」と「大きい(形容詞)」であり共通する。
本実施の形態においては、上記第1の実施の形態の変形例について説明する。
本実施の形態では、上記第1または第2の実施の形態に係る分析データ34の表示形態について説明する。
Claims (11)
- コンピュータに、
第1記憶手段に記憶されている文書データを形態素解析し、形態素解析データを作成する機能、
第2記憶手段に記憶されている共起パターンに基づいて、前記形態素解析データの中から複数の共起表現を抽出する共起抽出機能、
前記複数の共起表現のそれぞれに含まれている複数の自立語であり、この複数の自立語に用言が含まれている場合にはこの用言の自立語を終止形とした場合の組み合わせが同一の場合に、前記複数の共起表現を共通の表現でまとめる機能、
前記文書データと前記共通の表現とを関係付けた分析データを第3記憶手段に記憶する機能
を実現させるためのプログラム。 - 請求項1記載のプログラムにおいて、
前記形態素解析データは、前記文書データを単語で区切り、前記単語ごとに品詞種別を付したデータであり、
前記共起パターンは、品詞種別の組み合わせにより共起関係が設定されている
ことを特徴とするプログラム。 - 請求項1または請求項2記載のプログラムにおいて、
前記共起抽出機能は、前記形態素解析データに対して構文解析を実行して単語の係り受け関係を表す構文解析データを作成し、前記共起パターンと前記構文解析データとに基づいて、前記形態素解析データの中から複数の共起表現を抽出する
ことを特徴とするプログラム。 - 請求項1乃至請求項3のいずれか1項に記載のプログラムにおいて、
コンピュータに、
前記文書データから所定の自立語を抽出する機能
をさらに実現させ、
前記分析データは、前記文書データと前記自立語と前記共通の表現とを関係付けたデータである
ことを特徴とするプログラム。 - 請求項1乃至請求項4のいずれか1項に記載のプログラムにおいて、
コンピュータに、
前記複数の共起表現のうち第4記憶手段に記憶されている除外パターンと一致する共起表現を削除する機能
をさらに実現させ、
前記分析データは、前記除外パターンと一致しない共起表現を含む
ことを特徴とするプログラム。 - 請求項1乃至請求項5のいずれか1項に記載のプログラムにおいて、
コンピュータに、
前記分析データに基づいて、前記共通の表現を、出現頻度順に表示するための制御を行う機能
をさらに実現させることを特徴とするプログラム。 - 請求項1乃至請求項6のいずれか1項に記載のプログラムにおいて、
前記分析データは、前記文書データと前記共通の表現と前記複数の共起表現とを関係付けたデータであり、
コンピュータに、
前記分析データに基づいて、前記共通の表現と前記複数の共起表現とを表示するための制御を行う機能
をさらに実現させることを特徴とするプログラム。 - 請求項1乃至請求項7のいずれか1項に記載のプログラムにおいて、
コンピュータに、
前記形態素解析データを、句読点を基準として区切って複数の分割データを作成する機能
をさらに実現させ、
前記共起抽出機能は、前記複数の分割データごとに、複数の共起表現を抽出し、
前記分析データは、前記複数の分割データと前記共通の表現とを関係付けたデータである
ことを特徴とするプログラム。 - 請求項1乃至請求項8のいずれか1項に記載のプログラムにおいて、
前記分析データは、前記文書データに関する属性データを含み、
コンピュータに、
前記属性データに応じて、前記分析データの内容を表示するための制御を行う機能
をさらに実現させることを特徴とするプログラム。 - 第1記憶手段に記憶されている文書データを形態素解析し、形態素解析データを作成する手段と、
第2記憶手段に記憶されている共起パターンに基づいて、前記形態素解析データの中から複数の共起表現を抽出する共起抽出手段と、
前記複数の共起表現のそれぞれに含まれている複数の自立語であり、この複数の自立語に用言が含まれている場合にはこの用言の自立語を終止形とした場合の組み合わせが同一の場合に、前記複数の共起表現を共通の表現でまとめる手段と、
前記文書データと前記共通の表現とを関係付けた分析データを第3記憶手段に記憶する手段と
を具備する文書処理装置。 - コンピュータシステムによって実現される文書処理方法において、
第1記憶手段に記憶されている文書データを形態素解析し、形態素解析データを作成し、
第2記憶手段に記憶されている共起パターンに基づいて、前記形態素解析データの中から複数の共起表現を抽出し、
前記複数の共起表現のそれぞれに含まれている複数の自立語であり、この複数の自立語に用言が含まれている場合にはこの用言の自立語を終止形とした場合の組み合わせが同一の場合に、前記複数の共起表現を共通の表現でまとめ、
前記文書データと前記共通の表現とを関係付けた分析データを第3記憶手段に記憶する
ことを特徴とする文書処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004252407A JP4098764B2 (ja) | 2004-08-31 | 2004-08-31 | 文書処理装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004252407A JP4098764B2 (ja) | 2004-08-31 | 2004-08-31 | 文書処理装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006072483A true JP2006072483A (ja) | 2006-03-16 |
JP4098764B2 JP4098764B2 (ja) | 2008-06-11 |
Family
ID=36153084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004252407A Expired - Fee Related JP4098764B2 (ja) | 2004-08-31 | 2004-08-31 | 文書処理装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4098764B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009116415A (ja) * | 2007-11-01 | 2009-05-28 | Nippon Telegr & Teleph Corp <Ntt> | 概念情報データベース作成装置、概念情報データベース作成方法、プログラムおよび記録媒体 |
WO2009123260A1 (ja) * | 2008-04-01 | 2009-10-08 | 日本電気株式会社 | 共起辞書作成システムおよびスコアリングシステム |
JP2014010511A (ja) * | 2012-06-28 | 2014-01-20 | Kddi Corp | 不特定多数のユーザからの投稿文を用いて特定の異常を検知する異常検知装置、プログラム及び方法 |
-
2004
- 2004-08-31 JP JP2004252407A patent/JP4098764B2/ja not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009116415A (ja) * | 2007-11-01 | 2009-05-28 | Nippon Telegr & Teleph Corp <Ntt> | 概念情報データベース作成装置、概念情報データベース作成方法、プログラムおよび記録媒体 |
WO2009123260A1 (ja) * | 2008-04-01 | 2009-10-08 | 日本電気株式会社 | 共起辞書作成システムおよびスコアリングシステム |
JP5321583B2 (ja) * | 2008-04-01 | 2013-10-23 | 日本電気株式会社 | 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム |
JP2014010511A (ja) * | 2012-06-28 | 2014-01-20 | Kddi Corp | 不特定多数のユーザからの投稿文を用いて特定の異常を検知する異常検知装置、プログラム及び方法 |
Also Published As
Publication number | Publication date |
---|---|
JP4098764B2 (ja) | 2008-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Argamon et al. | Stylistic text classification using functional lexical features | |
Oostdijk | Corpus linguistics and the automatic analysis of English | |
US8060357B2 (en) | Linguistic user interface | |
Zubrinic et al. | The automatic creation of concept maps from documents written using morphologically rich languages | |
Ray et al. | A review and future perspectives of Arabic question answering systems | |
US20080040339A1 (en) | Learning question paraphrases from log data | |
Karamibekr et al. | Sentence subjectivity analysis in social domains | |
Das et al. | Temporal analysis of sentiment events–a visual realization and tracking | |
Panja | Information Retrieval Systems in Healthcare: Understanding Medical Data Through Text Analysis | |
Wu | Modelling linguistic resources: A systemic functional approach | |
Derici et al. | A closed-domain question answering framework using reliable resources to assist students | |
Das et al. | Identifying emotional expressions, intensities and sentence level emotion tags using a supervised framework | |
Diao | A lexical and syntactic study of research article titles in Library Science and Scientometrics | |
Hassel | Evaluation of automatic text summarization | |
KR100669534B1 (ko) | 문장추상화와 개연규칙을 활용하는 문서요약 방법과 시스템, 그리고 문장 의미 분석 및 표현방법 | |
Faltýnek et al. | Hapax remains: Regularity of low-frequency words in authorial texts | |
Litvak et al. | Multilingual Text Analysis: Challenges, Models, and Approaches | |
Séaghdha | Annotating and learning compound noun semantics | |
JP4098764B2 (ja) | 文書処理装置及びプログラム | |
JP5679400B2 (ja) | カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
Colruyt et al. | EventDNA: a dataset for Dutch news event extraction as a basis for news diversification | |
Tolmachev et al. | Automatic Japanese example extraction for flashcard-based foreign language learning | |
JP4213900B2 (ja) | 文書分類装置と記録媒体 | |
JPH11102372A (ja) | 文書要約装置及びコンピュータ読み取り可能な記録媒体 | |
Alemany et al. | Representing discourse for automatic text summarization via shallow NLP techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070712 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070925 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071121 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20071211 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080212 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20080225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080311 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080313 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4098764 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110321 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120321 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130321 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140321 Year of fee payment: 6 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |