JP5990124B2 - 略語生成装置、略語生成方法、及びプログラム - Google Patents
略語生成装置、略語生成方法、及びプログラム Download PDFInfo
- Publication number
- JP5990124B2 JP5990124B2 JP2013065008A JP2013065008A JP5990124B2 JP 5990124 B2 JP5990124 B2 JP 5990124B2 JP 2013065008 A JP2013065008 A JP 2013065008A JP 2013065008 A JP2013065008 A JP 2013065008A JP 5990124 B2 JP5990124 B2 JP 5990124B2
- Authority
- JP
- Japan
- Prior art keywords
- abbreviation
- character string
- candidate character
- mora
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Description
最初に、実施の形態の略語生成方法の概略について説明する。本実施の形態の略語生成方法は、所定の文字数以下で、音韻的な繋がりが良く、かつ、元文字列が複数の場合には、それに対応する略語の組において、お互いに区別し易い略語を生成するものである。
図2は、本実施の形態における略語生成装置1の構成を示す図である。
略語生成装置1は、元文字列および略語の上限値を入力する入力部10と、入力された元文字列の構成要素を分析する構成要素分析部11と、構成要素の分析結果に基づいて略語の候補となる候補文字列の集合を生成する略語候補生成部15と、候補文字列の中から最適の略語を探索するハミルトニアン最適解探索部16と、探索された略語を出力する出力部19とを有している。
以下では、上記した本実施の形態の略語生成装置1及び略語生成方法で用いるハミルトニアンについて、具体的な数式を示して詳細に説明する。
略語を生成するに当たり、元文字列の構成要素から略語を構成するために、以下、記号を導入する。
まず、元文字列wαの形態素pi αへの分割を、
略語vαに、形態素pi αの一部が含まれるということをvα∩pi α≠φと表すことにする。同様に、形態素pi α内の文字rij αが、略語vαに含まれているということをvα∩rij α≠φと表すことにする。インジケータ関数μ(pi α)、ξ(rij α)を、
我々の略語決定の基準は、元文字列の組
数式(15)は、数式(16)と異なり、もし状態変数(μi α,ξij α)を連続な変数であると見なしたときに、微分可能であることに注意する。
2つのモーラ列
この類似度を下げる、つまりλ(θ(vα),θ(vβ))の値が大きくなるようにするために、略語間の相互作用を次のように定める:
状態空間
以上では、任意の略語を対象に最適なものを探索する方法について説明した。しかし、現実には、略語を作成する場合に形態素の先頭の文字が省略されることはほとんどない。
状態空間
10 入力部
11 構成要素分析部
12 形態素分析部
13 機能語抽出部
14 機能語定義部
15 略語候補生成部
16 ハミルトニアン最適解探索部
17 状態変数の配位更新部
18 ハミルトニアン計算部
19 出力部
20 形態素内モーラ親和性評価部
21 形態素間モーラ親和性評価部
22 略語間類似度計算部
23 形態素内モーラ親和性データベース
24 形態素間モーラ親和性データベース
25 略語コーパス
26 学習部
27 モーラ定義部
30 CPU
31 RAM
32 ROM
33 プログラム
34 キーボード
35 マウス
36 ディスプレイ
37 スピーカ
38 ハードディスク
39 通信部
40 データバス
Claims (11)
- 略語の生成対象となる元文字列と、生成すべき略語の長さの上限値を入力する入力部と、
前記元文字列を形態素に分解し、分解した形態素から機能語を除いた形態素を抽出する構成要素分析部と、
前記構成要素分析部にて抽出された形態素またはその一部を組み合わせて構成される候補文字列の集合を生成し、前記元文字列のそれぞれの形態素について、前記候補文字列がその一部を含むか否かを示す第1のインジケータ関数と、前記候補文字列が前記元文字列のそれぞれの文字を含むか否かを示す第2のインジケータ関数とを状態変数とし、前記集合に含まれる前記候補文字列を前記状態変数で表す略語候補生成部と、
略語の事例データを用いた学習によって求めた略語内で任意の二つのモーラが並ぶ可能性を表すモーラ親和性のデータを記憶したモーラ親和性データ記憶部と、
前記状態変数を変数とする目的関数であって、(1)前記候補文字列の長さが長いほど値が小さくなり、(2)前記候補文字列の長さが前記上限値を超えると値が最小値を取り得ないように設定され、(3)前記候補文字列に含まれるモーラについて、前記モーラ親和性データ記憶部に記憶されたデータに基づいて計算されるモーラの親和性が高いほど値が小さくなる目的関数、の値を最小にする候補文字列を前記候補文字列の集合の中から求める最適解探索部と、
前記最適解探索部で求めた候補文字列を出力する出力部と、
を備える略語生成装置。 - 前記最適解探索部は、前記目的関数を最小にする候補文字列に加え、前記目的関数を最小にする方から所定個数の候補文字列を求め、
前記出力部は、所定個数の候補文字列と、それに対応する前記目的関数の値を出力する請求項1に記載の略語生成装置。 - 前記入力部は、略語の生成対象となる複数の元文字列を入力し、
前記目的関数は、前記(1)〜(3)に加えて、(4)前記元文字列に対応する候補文字列の間のモーラの類似度が低いほど値が小さくなる目的関数であり、
前記最適解探索部は、前記元文字列に対応する候補文字列の組のうち、前記目的関数を最小にする組を求め、
前記出力部は、前記候補文字列の組を出力する請求項1に記載の略語生成装置。 - 前記最適解探索部は、前記目的関数を最小にする候補文字列に加え、目的関数を最小にする方から所定個数の候補文字列の組を求め、
前記出力部は、所定個数の候補文字列の組と、それに対応する前記目的関数の値を出力する請求項3に記載の略語生成装置。 - 前記目的関数における候補文字列間の類似度の計算には、レーベンシュタイン距離を用いる請求項3または4に記載の略語生成装置。
- 前記目的関数は、候補文字列に含まれる形態素間のモーラ親和性と形態素内のモーラ親和性を計算する請求項1乃至5のいずれかに記載の略語生成装置。
- 前記略語候補生成部は、元文字列に含まれる形態素の順序を保った候補文字列の集合を生成する請求項1乃至6のいずれかに記載の略語生成装置。
- 前記略語候補生成部は、元文字列に含まれる最初の形態素を先頭に持つ候補文字列の集合を生成する請求項1乃至7のいずれかに記載の略語生成装置。
- 前記最適化探索部は、最急降下法、モンテカルロ法、または、アニーリング法を用いて、目的関数を最小にする候補文字列を求める請求項1乃至8のいずれかに記載の略語生成装置。
- 略語生成装置によって略語を生成する方法であって、
前記略語生成装置が、略語の生成対象となる元文字列と、生成すべき略語の長さの上限値を入力するステップと、
前記略語生成装置が、前記元文字列を形態素に分解し、分解した形態素から機能語を除いた形態素を抽出するステップと、
前記略語生成装置が、抽出された形態素またはその一部を組み合わせて構成される候補文字列の集合を生成し、前記元文字列のそれぞれの形態素について、前記候補文字列がその一部を含むか否かを示す第1のインジケータ関数と、前記候補文字列が前記元文字列のそれぞれの文字を含むか否かを示す第2のインジケータ関数とを状態変数とし、前記集合に含まれる前記候補文字列を前記状態変数で表すステップと、
前記略語生成装置が、略語の事例データを用いた学習によって求めた略語内で任意の二つのモーラが並ぶ可能性を表すモーラ親和性のデータをモーラ親和性データ記憶部に記憶するステップと、
前記略語生成装置が、前記状態変数を変数とする目的関数であって、(1)前記候補文字列の長さが長いほど値が小さくなり、(2)前記候補文字列の長さが前記上限値を超えると値が最小値を取り得ないように設定され、(3)前記候補文字列に含まれるモーラについて、前記モーラ親和性データ記憶部に記憶されたデータに基づいて計算されるモーラの親和性が高いほど値が小さくなる目的関数、の値を最小にする候補文字列を前記候補文字列の集合の中から求めるステップと、
前記略語生成装置が、求めた候補文字列を出力するステップと、
を備える略語生成方法。 - 略語を生成するためのプログラムであって、コンピュータに、
略語の生成対象となる元文字列と、生成すべき略語の長さの上限値を入力するステップと、
前記元文字列を形態素に分解し、分解した形態素から機能語を除いた形態素を抽出するステップと、
抽出された形態素またはその一部を組み合わせて構成される候補文字列の集合を生成し、前記元文字列のそれぞれの形態素について、前記候補文字列がその一部を含むか否かを示す第1のインジケータ関数と、前記候補文字列が前記元文字列のそれぞれの文字を含むか否かを示す第2のインジケータ関数とを状態変数とし、前記集合に含まれる前記候補文字列を前記状態変数で表すステップと、
略語の事例データを用いた学習によって求めた略語内で任意の二つのモーラが並ぶ可能性を表すモーラ親和性のデータをモーラ親和性データ記憶部に記憶するステップと、
前記状態変数を変数とする目的関数であって、(1)前記候補文字列の長さが長いほど値が小さくなり、(2)前記候補文字列の長さが前記上限値を超えると値が最小値を取り得ないように設定され、(3)前記候補文字列に含まれるモーラについて、前記モーラ親和性データ記憶部に記憶されたデータに基づいて計算されるモーラの親和性が高いほど値が小さくなる目的関数、の値を最小にする候補文字列を前記候補文字列の集合の中から求めるステップと、
求めた候補文字列を出力するステップと、
を実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013065008A JP5990124B2 (ja) | 2013-03-26 | 2013-03-26 | 略語生成装置、略語生成方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013065008A JP5990124B2 (ja) | 2013-03-26 | 2013-03-26 | 略語生成装置、略語生成方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014191490A JP2014191490A (ja) | 2014-10-06 |
JP5990124B2 true JP5990124B2 (ja) | 2016-09-07 |
Family
ID=51837711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013065008A Expired - Fee Related JP5990124B2 (ja) | 2013-03-26 | 2013-03-26 | 略語生成装置、略語生成方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5990124B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115017899B (zh) * | 2022-04-19 | 2023-03-31 | 北京三快在线科技有限公司 | 一种缩略语生成方法、装置、设备及存储介质 |
CN116976320B (zh) * | 2023-09-22 | 2023-12-15 | 湖南财信数字科技有限公司 | 机构简称提取方法、装置、计算机设备及存储介质 |
-
2013
- 2013-03-26 JP JP2013065008A patent/JP5990124B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2014191490A (ja) | 2014-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444320A (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
WO2007135996A1 (ja) | 文字列更新量評価プログラム | |
Raychev et al. | Language-independent sentiment analysis using subjectivity and positional information | |
JP5809381B1 (ja) | 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム | |
Banik et al. | Gru based named entity recognition system for bangla online newspapers | |
Nguyen et al. | OCR error correction using correction patterns and self-organizing migrating algorithm | |
Ahmed et al. | FLAG-PDFe: Features oriented metadata extraction framework for scientific publications | |
CN116258137A (zh) | 文本纠错方法、装置、设备和存储介质 | |
JP5441937B2 (ja) | 言語モデル学習装置、言語モデル学習方法、言語解析装置、及びプログラム | |
JP2020106880A (ja) | 情報処理装置、モデル作成方法及びプログラム | |
JP5990124B2 (ja) | 略語生成装置、略語生成方法、及びプログラム | |
Mahmoodvand et al. | Semi-supervised approach for Persian word sense disambiguation | |
Angeli et al. | Stanford’s distantly supervised slot filling systems for KBP 2014 | |
Sanyal et al. | Natural language processing technique for generation of SQL queries dynamically | |
Deka et al. | A study of t’nt and crf based approach for pos tagging in assamese language | |
JP4567025B2 (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
WO2021181719A1 (ja) | 言語処理装置、学習装置、言語処理方法、学習方法、及びプログラム | |
CN114579763A (zh) | 一种针对中文文本分类任务的字符级对抗样本生成方法 | |
JP6062816B2 (ja) | 形態素解析器生成装置、形態素解析器生成方法、及び、プログラム | |
JP2016133956A (ja) | 形態素解析モデル生成装置、形態素解析モデル生成方法、及び、プログラム | |
WO2014030258A1 (ja) | 形態素解析装置、テキスト分析方法、及びそのプログラム | |
Ashraf et al. | BFCAI at SemEval-2022 task 6: Multi-layer perceptron for sarcasm detection in Arabic texts | |
Testas | Natural Language Processing with Pandas, Scikit-Learn, and PySpark | |
KR20200057206A (ko) | 문서 내 언급되지 않은 정보를 가시화하기 위한 방법 및 시스템 | |
Hsiao et al. | Extracting bibliographical data for PDF documents with HMM and external resources |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150907 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20151113 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160729 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160809 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160812 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5990124 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |