JP5154535B2 - スコア付形態素辞書の生成装置、方法、及びプログラム - Google Patents
スコア付形態素辞書の生成装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP5154535B2 JP5154535B2 JP2009295300A JP2009295300A JP5154535B2 JP 5154535 B2 JP5154535 B2 JP 5154535B2 JP 2009295300 A JP2009295300 A JP 2009295300A JP 2009295300 A JP2009295300 A JP 2009295300A JP 5154535 B2 JP5154535 B2 JP 5154535B2
- Authority
- JP
- Japan
- Prior art keywords
- domain
- score
- word
- scores
- morpheme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 65
- 238000012937 correction Methods 0.000 claims description 63
- 238000012545 processing Methods 0.000 claims description 54
- 230000008569 process Effects 0.000 claims description 50
- 238000004364 calculation method Methods 0.000 claims description 37
- 238000010586 diagram Methods 0.000 description 8
- 235000005135 Micromeria juliana Nutrition 0.000 description 7
- 241000246354 Satureja Species 0.000 description 7
- 235000007315 Satureja hortensis Nutrition 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003387 muscular Effects 0.000 description 3
- 102100024066 Coiled-coil and C2 domain-containing protein 1A Human genes 0.000 description 2
- 101000910423 Homo sapiens Coiled-coil and C2 domain-containing protein 1A Proteins 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 235000014820 Galium aparine Nutrition 0.000 description 1
- 240000005702 Galium aparine Species 0.000 description 1
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Description
所定の形態素を基本語とし、所定のドメインに予め関連付けられている1以上の手掛かり語毎に、前記基本語との関連度を示す手掛かり語スコアをそれぞれ算出する処理を、所定の複数のドメイン毎に実行する手掛かり語スコア算出手段と、
前記手掛かり語スコア算出手段により算出された1以上の前記手掛かり語スコアの少なくとも一部に基づいて、前記基本語と前記複数のドメインの各々との関連度を、前記複数のドメインスコアの各々として算出するドメインスコア算出手段と、
前記複数のドメインを1つずつ処理対象とし、前記ドメインスコア算出手段により算出された前記処理対象のドメインスコアと前記複数のドメインスコア全体との関係に基づいて、前記処理対象の前記ドメインスコアを補正し、補正後の前記複数のドメインスコアを前記基本語と関連付けて前記スコア付形態素辞書に登録するドメインスコア補正手段と
を備え、
前記処理対象のドメインスコアと前記複数のドメインスコア全体との関係は、前記複数のドメインスコアの総和に対する、前記処理対象のドメインスコアの割合により示される
スコア付形態素辞書の生成装置。
前記ドメインスコア算出手段は、上位M個(Mは、ドメインに関連付けられている手掛かり語の総数以下の整数値)の前記手掛かり語スコアの各々のファイ係数の平均を、前記ドメインスコアとして算出する
(1)に記載のスコア付形態素辞書の生成装置。
110 スコア付形態素辞書生成装置
120 ドメイン/手掛かり語データベース
130 基本語データベース
140 スコア付形態素辞書
150 未知語ドメイン推定装置
210 手掛かり語スコア算出部
220 ドメイン算出部
230 ドメインスコア補正部
310 未知語受付部
320 対応基本語選択部
330 未知語ドメイン分類部
Claims (4)
- 所定の形態素に対して、所定の複数のドメインスコアが関連付けられて登録されるスコア付形態素辞書の生成装置であって、
所定の形態素を基本語とし、所定のドメインに予め関連付けられている1以上の手掛かり語毎に、前記基本語との関連度を示す手掛かり語スコアをそれぞれ算出する処理を、所定の複数のドメイン毎に実行する手掛かり語スコア算出手段と、
前記手掛かり語スコア算出手段により算出された1以上の前記手掛かり語スコアの少なくとも一部に基づいて、前記基本語と前記複数のドメインの各々との関連度を、前記複数のドメインスコアの各々として算出するドメインスコア算出手段と、
前記複数のドメインを1つずつ処理対象とし、前記ドメインスコア算出手段により算出された前記処理対象のドメインスコアと前記複数のドメインスコア全体との関係に基づいて、前記処理対象の前記ドメインスコアを補正し、補正後の前記複数のドメインスコアを前記基本語と関連付けて前記スコア付形態素辞書に登録するドメインスコア補正手段と
を備え、
前記処理対象のドメインスコアと前記複数のドメインスコア全体との関係は、前記複数のドメインスコアの総和に対する、前記処理対象のドメインスコアの割合により示される
スコア付形態素辞書の生成装置。 - 前記手掛かり語スコアは、カイ二乗値に基づく指標値であり、
前記ドメインスコア算出手段は、上位M個(Mは、ドメインに関連付けられている手掛かり語の総数以下の整数値)の前記手掛かり語スコアの各々のファイ係数の平均を、前記ドメインスコアとして算出する
請求項1に記載のスコア付形態素辞書の生成装置。 - 手掛かり語スコア算出手段と、ドメインスコア算出手段と、ドメインスコア補正手段を具備するスコア付形態素辞書の生成装置が行う、所定の形態素に対して、所定の複数のドメインスコアが関連付けられて登録されるスコア付形態素辞書の生成方法であって、
前記手掛かり語スコア算出手段が、所定の形態素を基本語とし、所定のドメインに予め関連付けられている1以上の手掛かり語毎に、前記基本語との関連度を示す手掛かり語スコアをそれぞれ算出する処理を、所定の複数のドメイン毎に実行する手掛かり語スコア算出ステップと、
前記ドメインスコア算出手段が、前記手掛かり語スコア算出ステップの処理により算出された1以上の前記手掛かり語スコアの少なくとも一部に基づいて、前記基本語と前記複数のドメインの各々との関連度を、前記複数のドメインスコアの各々として算出するドメインスコア算出ステップと、
前記ドメインスコア補正手段が、前記複数のドメインを1つずつ処理対象とし、前記ドメインスコア算出ステップの処理により算出された前記処理対象のドメインスコアと前記複数のドメインスコア全体との関係に基づいて、前記処理対象の前記ドメインスコアを補正し、補正後の前記複数のドメインスコアを前記基本語と関連付けて前記スコア付形態素辞書に登録するドメインスコア補正ステップと
を含み、
前記処理対象のドメインスコアと前記複数のドメインスコア全体との関係は、前記複数のドメインスコアの総和に対する、前記処理対象のドメインスコアの割合により示される
スコア付形態素辞書の生成方法。 - 所定の形態素に対して、所定の複数のドメインスコアが関連付けられて登録されるスコア付形態素辞書の生成処理を制御するコンピュータに、
所定の形態素を基本語とし、所定のドメインに予め関連付けられている1以上の手掛かり語毎に、前記基本語との関連度を示す手掛かり語スコアをそれぞれ算出する処理を、所定の複数のドメイン毎に実行する手掛かり語スコア算出ステップと、
前記手掛かり語スコア算出ステップの処理により算出された1以上の前記手掛かり語スコアの少なくとも一部に基づいて、前記基本語と前記複数のドメインの各々との関連度を、前記複数のドメインスコアの各々として算出するドメインスコア算出ステップと、
前記複数のドメインを1つずつ処理対象とし、前記ドメインスコア算出ステップの処理により算出された前記処理対象のドメインスコアと前記複数のドメインスコア全体との関係に基づいて、前記処理対象の前記ドメインスコアを補正し、補正後の前記複数のドメインスコアを前記基本語と関連付けて前記スコア付形態素辞書に登録するドメインスコア補正ステップと
を含み、
前記処理対象のドメインスコアと前記複数のドメインスコア全体との関係は、前記複数のドメインスコアの総和に対する、前記処理対象のドメインスコアの割合により示される
制御処理を実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009295300A JP5154535B2 (ja) | 2009-12-25 | 2009-12-25 | スコア付形態素辞書の生成装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009295300A JP5154535B2 (ja) | 2009-12-25 | 2009-12-25 | スコア付形態素辞書の生成装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011134247A JP2011134247A (ja) | 2011-07-07 |
JP5154535B2 true JP5154535B2 (ja) | 2013-02-27 |
Family
ID=44346877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009295300A Expired - Fee Related JP5154535B2 (ja) | 2009-12-25 | 2009-12-25 | スコア付形態素辞書の生成装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5154535B2 (ja) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4360181B2 (ja) * | 2003-11-13 | 2009-11-11 | 日本電信電話株式会社 | ドメイン別概念辞書構築装置及びプログラム |
JP5008137B2 (ja) * | 2007-11-06 | 2012-08-22 | 日本電信電話株式会社 | 単語ベクトル生成装置、単語ベクトル生成方法、プログラムおよびプログラムを記録した記録媒体 |
-
2009
- 2009-12-25 JP JP2009295300A patent/JP5154535B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011134247A (ja) | 2011-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Oufaida et al. | Minimum redundancy and maximum relevance for single and multi-document Arabic text summarization | |
US5270927A (en) | Method for conversion of phonetic Chinese to character Chinese | |
JP4942727B2 (ja) | テキスト要約装置、その方法およびプログラム | |
KR20050005523A (ko) | 단어 상관 방법 및 장치 | |
US20100217742A1 (en) | Generating A Domain Corpus And A Dictionary For An Automated Ontology | |
CN111400486B (zh) | 一种文本摘要自动生成系统及方法 | |
JP2007004633A (ja) | 言語モデル作成装置およびそれにより作成された言語モデルを使用する言語処理装置 | |
JP2014078132A (ja) | 機械翻訳装置、方法およびプログラム | |
EP2224360A1 (en) | Generating a dictionary and determining a co-occurrence context for an automated ontology | |
Singh Bhatia et al. | Automatic generation of multiple choice questions using wikipedia | |
CN106844356B (zh) | 一种基于数据选择改善英中机器翻译质量的方法 | |
CN112612875B (zh) | 一种查询词自动扩展方法、装置、设备及存储介质 | |
KR102402466B1 (ko) | 키워드 클러스터링을 이용한 문서 요약 방법 및 장치 | |
JP5527548B2 (ja) | 情報分析装置、情報分析方法、及びプログラム | |
Dhanani et al. | FAST-MT Participation for the JOKER CLEF-2022 Automatic Pun and Humour Translation Tasks | |
JP5154535B2 (ja) | スコア付形態素辞書の生成装置、方法、及びプログラム | |
Molino et al. | Distributed representations for semantic matching in non-factoid question answering. | |
Ploch et al. | GerNED: A German Corpus for Named Entity Disambiguation. | |
JP5085584B2 (ja) | 記事特徴語抽出装置、記事特徴語抽出方法及びプログラム | |
JP5523929B2 (ja) | テキスト要約装置、テキスト要約方法及びテキスト要約プログラム | |
JP2009116593A (ja) | 単語ベクトル生成装置、単語ベクトル生成方法、プログラムおよびプログラムを記録した記録媒体 | |
JP4972271B2 (ja) | 検索結果提示装置 | |
Jha | Document clustering using k-medoids | |
JP2008282328A (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
JP5277090B2 (ja) | リンク作成支援装置、リンク作成支援方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120823 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120904 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20121001 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121024 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121113 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121205 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151214 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5154535 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees | ||
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |