JP5979650B2 - 用語を適切な粒度で分割する方法、並びに、用語を適切な粒度で分割するためのコンピュータ及びそのコンピュータ・プログラム - Google Patents
用語を適切な粒度で分割する方法、並びに、用語を適切な粒度で分割するためのコンピュータ及びそのコンピュータ・プログラム Download PDFInfo
- Publication number
- JP5979650B2 JP5979650B2 JP2014152580A JP2014152580A JP5979650B2 JP 5979650 B2 JP5979650 B2 JP 5979650B2 JP 2014152580 A JP2014152580 A JP 2014152580A JP 2014152580 A JP2014152580 A JP 2014152580A JP 5979650 B2 JP5979650 B2 JP 5979650B2
- Authority
- JP
- Japan
- Prior art keywords
- term
- component
- computer
- dividing
- longest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
(A)構文解析により、コンテンツから粒度を規定する構成要素(element word)を抽出するステップと、
(B)上記用語がその一部に少なくとも1つの上記構成要素を含む場合に、上記用語を上記構成要素がある位置で分割するステップと
を実行することを含む。
(A−3)上記コンテンツ中のテキストそれぞれに上記構文解析を適用して、文節を抽出するステップと、
(A−4)上記抽出した文節のうちの名詞又は記号を含む文節から上記構成要素となりうる部分を抽出するステップと
を含みうる。
(A−1)上記コンテンツから、上記構成要素を抽出する対象のテキストを切り出すステップ
をさらに含み、
上記文節を抽出するステップが、上記切り出したテキストそれぞれに上記構文解析を適用して行われうる。
(A−2)上記切り出したテキストを事前定義した文字がある場所で分割するステップ
をさらに含み、
上記文節を抽出するステップが、上記分割したテキストそれぞれに上記構文解析を適用して行われうる。
(A)上記構成要素を抽出するステップが、
(A−5)上記構成要素となりうる部分のうちから上記用語リスト中にある用語を削除し、当該削除した残りを上記構成要素とするステップ
をさらに含みうる。
(B−1)上記用語が当該用語の末尾から最長一致する上記構成要素(第1の構成要素)を含む場合に、上記用語を上記末尾から最長一致する上記構成要素(第1の構成要素)がある位置で分割するステップ
を含みうる。
上記末尾から最長一致する上記構成要素(第1の構成要素)を上記用語の主要語として保存するステップ
を含みうる。
(B−2)上記用語から上記末尾から最長一致する上記構成要素(第1の構成要素)を除いた後の用語が当該除いた後の用語の先頭から最長一致する上記構成要素(第2の構成要素)を含む場合に、上記除いた後の用語を上記先頭から最長一致する上記構成要素(第2の構成要素)がある位置で分割するステップ
を含みうる。
上記先頭から最長一致する上記構成要素(第2の構成要素)を上記用語の第1の修飾語として保存するステップ
をさらに含みうる。
上記先頭から最長一致する上記構成要素(第2の構成要素)以外の部分を第2の修飾語として保存するステップ
を含みうる。
予め設定された分割回数を規定する分割パラメータに従って、上記用語を上記構成要素がある位置で分割するステップ
を含みうる。
構文解析により、粒度を規定する構成要素をコンテンツから抽出する抽出手段と、
上記用語がその一部に少なくとも1つの上記構成要素を含む場合に、上記用語を上記構成要素がある位置で分割する分割手段と
を備えている。
上記抽出手段が、上記構成要素となりうる部分のうちから上記用語リスト中にある用語を削除し、当該削除した残りを上記構成要素としうる。
Beneficiary right seller's | business security deposit
Financial instruments | intermediary service
ZUR EOF | mark
金信 | 期日後収益金 |税額
延滞 | 元金額
補正計算| 元本額
Claims (20)
- 用語を適切な粒度で分割する方法であって、コンピュータが抽出手段と分割手段とを備えており、前記方法は、
前記抽出手段が、コンテンツを格納したメモリ又は記憶装置から読み取り、構文解析により、粒度を規定する構成要素を前記コンテンツから抽出するステップを実行し、ここで、前記構成要素は、少なくとも1つの名詞又は記号を含む1又は複数の単語列であり、
前記分割手段が、前記用語がその一部に少なくとも1つの前記構成要素を含む場合に、前記用語を前記構成要素がある位置で分割し、当該分割した後の用語を当該分割した後の用語を入れるリストに格納するステップを実行し、
前記分割するステップが、
前記用語が当該用語の末尾から最長一致する前記構成要素を含む場合に、前記用語を前記末尾から最長一致する構成要素がある位置で分割するステップと、
前記用語から前記末尾から最長一致する前記構成要素を除いた後の用語が当該除いた後の用語の先頭から最長一致する前記構成要素を含む場合に、前記除いた後の用語を前記先頭から最長一致する構成要素がある位置で分割するステップと
を含む、
前記方法。 - 前記用語を前記末尾から最長一致する前記構成要素がある位置で分割するステップが、
前記末尾から最長一致する前記構成要素を前記用語の主要語として保存するステップ
を含む、請求項1に記載の方法。 - 前記除いた後の用語を前記先頭から最長一致する前記構成要素がある位置で分割するステップが、
前記先頭から最長一致する前記構成要素を前記用語の第1の修飾語として保存するステップ
をさらに含む、請求項1又は2に記載の方法。 - 前記除いた後の用語を前記先頭から最長一致する前記構成要素がある位置で分割するステップが、
前記先頭から最長一致する前記構成要素以外の部分を第2の修飾語として保存するステップ
を含む、請求項3に記載の方法。 - 前記構成要素を抽出するステップが、
前記コンテンツ中のテキストそれぞれに前記構文解析を適用して、文節を抽出するステップと、
前記抽出した文節のうちの名詞又は記号を含む文節から前記構成要素となりうる部分を抽出するステップと
を含む、請求項1〜4のいずれか一項に記載の方法。 - 前記構成要素を抽出するステップが、
前記コンテンツから、前記構成要素を抽出する対象のテキストを切り出すステップ
をさらに含み、
前記文節を抽出するステップが、前記切り出したテキストそれぞれに前記構文解析を適用して行われる、請求項5に記載の方法。 - 前記構成要素を抽出するステップが、
前記切り出したテキストを事前定義した文字がある場所で分割するステップ
をさらに含み、
前記文節を抽出するステップが、前記分割したテキストそれぞれに前記構文解析を適用して行われる、請求項6に記載の方法。 - 前記用語が用語リスト中の用語であり、
前記構成要素を抽出するステップが、
前記構成要素となりうる部分から前記用語リスト中にある同じ用語を削除し、当該削除した残りを前記構成要素とするステップ
をさらに含む、請求項5〜7のいずれか一項に記載の方法。 - 前記分割するステップが、
前記分割するステップに従い分割した分割回数と、予め設定された分割回数を規定する分割パラメータとを比較し、前記分割回数が前記分割パラメータよりも少ないことに応じて、前記用語を前記構成要素がある位置でさらに分割するステップ
を含む、請求項1〜8のいずれか一項に記載の方法。 - 前記用語が用語リスト中の用語である、請求項1〜7及び9のいずれか一項に記載の方法。
- 前記用語が、前記コンテンツ中の所定の長さよりも長い用語である、請求項1〜7及び10のいずれか一項に記載の方法。
- 前記用語が名詞、記号又はそれらの組み合わせを含む単語列である、請求項1〜11のいずれか一項に記載の方法。
- 前記用語が複合名詞である、請求項1〜11のいずれか一項に記載の方法。
- 前記構成要素が、少なくとも1つの名詞又は記号を含む1又は複数の単語列である、請求項1〜13のいずれか一項に記載の方法。
- 用語を適切な粒度で分割するためのコンピュータであって、
コンテンツを格納するメモリ又は記憶装置と、
前記メモリ又は記憶装置からコンテンツを読み取り、構文解析により、粒度を規定する構成要素を前記コンテンツから抽出する抽出手段であって、前記構成要素は、少なくとも1つの名詞又は記号を含む1又は複数の単語列である、前記抽出手段と、
前記用語がその一部に少なくとも1つの前記構成要素を含む場合に、前記用語を前記構成要素がある位置で分割し、当該分割した後の用語を当該分割した後の用語を入れるリストに格納する分割手段と
を備えており、
前記分割手段が、
前記用語が当該用語の末尾から最長一致する前記構成要素を含む場合に、前記用語を前記末尾から最長一致する構成要素がある位置で分割すること、
前記用語から前記末尾から最長一致する前記構成要素を除いた後の用語が当該除いた後の用語の先頭から最長一致する前記構成要素を含む場合に、前記除いた後の用語を前記先頭から最長一致する構成要素がある位置で分割すること
を実行する、前記コンピュータ。 - 前記分割手段が、前記末尾から最長一致する前記構成要素を前記用語の主要語として保存することを実行する、請求項15に記載のコンピュータ。
- 前記分割手段が、前記先頭から最長一致する前記構成要素を前記用語の第1の修飾語として保存することを実行する、請求項15又は16に記載のコンピュータ。
- 前記分割手段が、前記先頭から最長一致する前記構成要素以外の部分を第2の修飾語として保存することを実行する、請求項17に記載のコンピュータ。
- 前記抽出手段が、
前記コンテンツ中のテキストそれぞれに前記構文解析を適用して、文節を抽出すること、
前記抽出した文節のうちの名詞又は記号を含む文節から前記構成要素となりうる部分を抽出すること
を実行する、請求項15〜18のいずれか一項に記載のコンピュータ。 - 用語を適切な粒度で分割するためのコンピュータ・プログラムであって、コンピュータに、請求項1〜14のいずれか一項に記載の方法の各ステップを実行させる、前記コンピュータ・プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014152580A JP5979650B2 (ja) | 2014-07-28 | 2014-07-28 | 用語を適切な粒度で分割する方法、並びに、用語を適切な粒度で分割するためのコンピュータ及びそのコンピュータ・プログラム |
US14/811,408 US20160026619A1 (en) | 2014-07-28 | 2015-07-28 | Method, system, and computer program product for dividing a term with appropriate granularity |
US15/421,235 US10198426B2 (en) | 2014-07-28 | 2017-01-31 | Method, system, and computer program product for dividing a term with appropriate granularity |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014152580A JP5979650B2 (ja) | 2014-07-28 | 2014-07-28 | 用語を適切な粒度で分割する方法、並びに、用語を適切な粒度で分割するためのコンピュータ及びそのコンピュータ・プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016031572A JP2016031572A (ja) | 2016-03-07 |
JP5979650B2 true JP5979650B2 (ja) | 2016-08-24 |
Family
ID=55166872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014152580A Active JP5979650B2 (ja) | 2014-07-28 | 2014-07-28 | 用語を適切な粒度で分割する方法、並びに、用語を適切な粒度で分割するためのコンピュータ及びそのコンピュータ・プログラム |
Country Status (2)
Country | Link |
---|---|
US (2) | US20160026619A1 (ja) |
JP (1) | JP5979650B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018146864A1 (ja) * | 2017-02-07 | 2018-08-16 | パナソニックIpマネジメント株式会社 | 翻訳装置および翻訳方法 |
US11983497B2 (en) * | 2019-11-20 | 2024-05-14 | Drexel University | Identification and personalized protection of text data using shapley values |
CN111274353B (zh) | 2020-01-14 | 2023-08-01 | 百度在线网络技术(北京)有限公司 | 文本切词方法、装置、设备和介质 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2500680B2 (ja) * | 1990-12-13 | 1996-05-29 | 日本電信電話株式会社 | デ−タ名付与登録装置 |
JPH06231188A (ja) * | 1993-02-01 | 1994-08-19 | Nippon Telegr & Teleph Corp <Ntt> | 類似データ名称分類装置 |
JPH0765008A (ja) * | 1993-08-23 | 1995-03-10 | Toshiba Corp | 用語登録制御方法及び同装置 |
JPH0785101A (ja) | 1993-09-20 | 1995-03-31 | Fujitsu F I P Kk | キーワード抽出処理装置 |
JPH08305695A (ja) | 1995-04-28 | 1996-11-22 | Fujitsu Ltd | 文書処理装置 |
JPH10207890A (ja) | 1997-01-17 | 1998-08-07 | Toshiba Corp | 文章解析装置及び方法 |
JPH10260824A (ja) * | 1997-03-17 | 1998-09-29 | Meidensha Corp | ソフトウェア開発支援システム |
JP2001032584A (ja) | 1999-07-23 | 2001-02-06 | Denso Corp | 非接触icカードを用いた施解錠制御装置 |
JP3983000B2 (ja) * | 2001-02-27 | 2007-09-26 | 株式会社リコー | 複合語分割装置、及び日本語辞書作成装置 |
JP2003015869A (ja) * | 2001-06-27 | 2003-01-17 | Toshiba Corp | 開発支援プログラム及び開発支援方法並びに開発支援システム |
JP4754247B2 (ja) * | 2004-03-31 | 2011-08-24 | オセ−テクノロジーズ ビーブイ | 複合語を構成する単語を割り出す装置及びコンピュータ化された方法 |
JP4236057B2 (ja) | 2006-03-24 | 2009-03-11 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 新たな複合語を抽出するシステム |
JP2007264718A (ja) | 2006-03-27 | 2007-10-11 | Yafoo Japan Corp | ユーザ興味分析装置、方法、プログラム |
JP4576397B2 (ja) | 2006-11-08 | 2010-11-04 | 日本電信電話株式会社 | 評価情報抽出装置、評価情報抽出方法およびそのプログラム |
JP5143057B2 (ja) | 2009-03-02 | 2013-02-13 | 日本電信電話株式会社 | 重要キーワード抽出装置及び方法及びプログラム |
JP5648956B2 (ja) * | 2009-09-30 | 2015-01-07 | 学校法人神奈川大学 | 漢字複合語分割方法及び漢字複合語分割装置 |
US20120281919A1 (en) | 2011-05-06 | 2012-11-08 | King Abdul Aziz City For Science And Technology | Method and system for text segmentation |
-
2014
- 2014-07-28 JP JP2014152580A patent/JP5979650B2/ja active Active
-
2015
- 2015-07-28 US US14/811,408 patent/US20160026619A1/en not_active Abandoned
-
2017
- 2017-01-31 US US15/421,235 patent/US10198426B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016031572A (ja) | 2016-03-07 |
US20160026619A1 (en) | 2016-01-28 |
US10198426B2 (en) | 2019-02-05 |
US20170139897A1 (en) | 2017-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113807098B (zh) | 模型训练方法和装置、电子设备以及存储介质 | |
US10552462B1 (en) | Systems and methods for tokenizing user-annotated names | |
Pasha et al. | Madamira: A fast, comprehensive tool for morphological analysis and disambiguation of arabic. | |
US9892727B2 (en) | Method of selecting training text for language model, and method of training language model using the training text, and computer and computer program for executing the methods | |
Padró et al. | Freeling 3.0: Towards wider multilinguality | |
US10095690B2 (en) | Automated ontology building | |
US7478092B2 (en) | Key term extraction | |
US20170004124A1 (en) | Systems and methods for automatically creating tables using auto-generated templates | |
Ofazer et al. | Bootstrapping morphological analyzers by combining human elicitation and machine learning | |
Simon et al. | Automatically generated NE tagged corpora for English and Hungarian | |
US11074402B1 (en) | Linguistically consistent document annotation | |
JP5979650B2 (ja) | 用語を適切な粒度で分割する方法、並びに、用語を適切な粒度で分割するためのコンピュータ及びそのコンピュータ・プログラム | |
US11874860B2 (en) | Creation of indexes for information retrieval | |
JP2007219620A (ja) | テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法 | |
JP2008234049A (ja) | 要約文生成装置及び要約文生成プログラム | |
Murauer et al. | Generating cross-domain text classification corpora from social media comments | |
JP5795302B2 (ja) | 形態素解析装置、方法、及びプログラム | |
US20120137212A1 (en) | Programmatic conversion of support documentation into executable programs | |
US20150324333A1 (en) | Systems and methods for automatically generating hyperlinks | |
Vo et al. | VietSentiLex: A sentiment dictionary that considers the polarity of ambiguous sentiment words | |
Eger | Designing and comparing G2P-type lemmatizers for a morphology-rich language | |
Benko | Language Code Switching in Web Corpora. | |
Mori et al. | A comparative study of dictionaries and corpora as methods for language resource addition | |
JP6657920B2 (ja) | 文書検証支援装置、文書検証支援方法、及び、文書検証支援プログラム | |
JP2014235511A (ja) | 情報処理装置、制御方法、及びコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160105 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20160114 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20160114 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20160229 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160310 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20160324 Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160324 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160627 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20160628 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20160628 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160719 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5979650 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |