JP2018206262A - 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム - Google Patents
単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP2018206262A JP2018206262A JP2017113768A JP2017113768A JP2018206262A JP 2018206262 A JP2018206262 A JP 2018206262A JP 2017113768 A JP2017113768 A JP 2017113768A JP 2017113768 A JP2017113768 A JP 2017113768A JP 2018206262 A JP2018206262 A JP 2018206262A
- Authority
- JP
- Japan
- Prior art keywords
- word
- identification model
- example data
- concatenation
- seed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
20,220 演算部
30 シード抽出部
32 正例データ拡張部
34 負例データ拡張部
36 識別モデル学習部
40,240 単語連接識別モデル
100 単語連接識別モデル学習装置
200 単語連接検出装置
230 解析部
232 単語連接検出部
240 単語連接識別モデル
250 出力部
Claims (8)
- 所定のドメインのテキスト集合に対して形態素解析を行い、前記形態素解析の結果から、予め定められた閾値を用いて得られる単語列をシードとして抽出し、前記シードを正例データとするシード抽出部と、
前記シードに含まれる単語を置き換えた置換文字列に対して形態素解析を行い、前記形態素解析の結果から、前記置換文字列における単語の連接が元の品詞列と一致しない箇所を特定し、負例データを生成する負例データ拡張部と、
前記正例データと、生成した前記負例データとに基づいて、単語列における単語の連接が自然であるか否かを識別するための単語連接識別モデルを学習する識別モデル学習部と、
を含む単語連接識別モデル学習装置。 - 前記シード抽出部は、前記形態素解析の結果から、前記シードとして、文字数が予め定めた閾値以下になる単語列、及び単語ngramの出現頻度が閾値以上となる単語ngramの少なくとも一方を抽出する請求項1に記載の単語連接識別モデル学習装置。
- 前記シードに含まれる単語を、前記所定のドメインとは別のドメインのテキストに含まれる単語に置き換え、前記置き換えた結果として得られる単語列が、前記別のドメインのテキスト集合に予め定めた閾値以上出現する場合、前記置き換えた結果として得られる単語列を、正例データとして追加する正例データ拡張部を更に含む請求項1又は請求項2に記載の単語連接識別モデル学習装置。
- テキストを入力として、形態素解析を行う解析部と、
前記解析部によって得られた形態素解析の結果に基づいて、単語列における単語の連接が自然であるか否かを識別するための予め学習された単語連接識別モデルを用いて、前記形態素解析の結果から得られる前記単語列における単語の連接が自然であるか否かを検出する単語連接検出部と、
を含む単語連接検出装置。 - シード抽出部が、所定のドメインのテキスト集合に対して形態素解析を行い、前記形態素解析の結果から、予め定められた閾値を用いて得られる単語列をシードとして抽出し、前記シードを正例データとするステップと、
負例データ拡張部が、前記シードに含まれる単語を置き換えた置換文字列に対して形態素解析を行い、前記形態素解析の結果から、前記置換文字列における単語の連接が元の品詞列と一致しない箇所を特定し、負例データを生成するステップと、
識別モデル学習部が、前記正例データと、生成した前記負例データとに基づいて、単語列における単語の連接が自然であるか否かを識別するための単語連接識別モデルを学習するステップと、
を含む単語連接識別モデル学習方法。 - 解析部が、テキストを入力として、形態素解析を行うステップと、
単語連接検出部が、前記解析部によって得られた形態素解析の結果に基づいて、単語列における単語の連接が自然であるか否かを識別するための予め学習された単語連接識別モデルを用いて、前記形態素解析の結果から得られる前記単語列における単語の連接が自然であるか否かを検出するステップと、
を含む単語連接検出方法。 - コンピュータを、請求項1〜請求項3のいずれか1項に記載の単語連接識別モデル学習装置の各部として機能させるためのプログラム。
- コンピュータを、請求項4に記載の単語連接検出装置の各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017113768A JP6778655B2 (ja) | 2017-06-08 | 2017-06-08 | 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017113768A JP6778655B2 (ja) | 2017-06-08 | 2017-06-08 | 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018206262A true JP2018206262A (ja) | 2018-12-27 |
JP6778655B2 JP6778655B2 (ja) | 2020-11-04 |
Family
ID=64957953
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017113768A Active JP6778655B2 (ja) | 2017-06-08 | 2017-06-08 | 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6778655B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111538806A (zh) * | 2019-01-21 | 2020-08-14 | 阿里巴巴集团控股有限公司 | 查询负例的泛化方法及装置 |
WO2021090587A1 (ja) * | 2019-11-08 | 2021-05-14 | リーダー電子株式会社 | 教師データ生成方法、学習済みモデルを生成する方法、装置、記録媒体、プログラム、情報処理装置 |
JP2022511593A (ja) * | 2019-10-28 | 2022-02-01 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | Poi状態情報を取得する方法、装置、デバイス、プログラム及びコンピュータ記憶媒体 |
WO2023148831A1 (ja) * | 2022-02-01 | 2023-08-10 | 日本電信電話株式会社 | 疑似負例生成装置、疑似負例生成方法、及びプログラム |
JP7476578B2 (ja) | 2020-03-06 | 2024-05-01 | 富士フイルムビジネスイノベーション株式会社 | 学習装置及びプログラム |
-
2017
- 2017-06-08 JP JP2017113768A patent/JP6778655B2/ja active Active
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111538806A (zh) * | 2019-01-21 | 2020-08-14 | 阿里巴巴集团控股有限公司 | 查询负例的泛化方法及装置 |
CN111538806B (zh) * | 2019-01-21 | 2023-04-07 | 阿里巴巴集团控股有限公司 | 查询负例的泛化方法及装置 |
JP2022511593A (ja) * | 2019-10-28 | 2022-02-01 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | Poi状態情報を取得する方法、装置、デバイス、プログラム及びコンピュータ記憶媒体 |
JP7214949B2 (ja) | 2019-10-28 | 2023-01-31 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | Poi状態情報を取得する方法、装置、デバイス、プログラム及びコンピュータ記憶媒体 |
US11709999B2 (en) | 2019-10-28 | 2023-07-25 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for acquiring POI state information, device and computer storage medium |
WO2021090587A1 (ja) * | 2019-11-08 | 2021-05-14 | リーダー電子株式会社 | 教師データ生成方法、学習済みモデルを生成する方法、装置、記録媒体、プログラム、情報処理装置 |
JP7476578B2 (ja) | 2020-03-06 | 2024-05-01 | 富士フイルムビジネスイノベーション株式会社 | 学習装置及びプログラム |
WO2023148831A1 (ja) * | 2022-02-01 | 2023-08-10 | 日本電信電話株式会社 | 疑似負例生成装置、疑似負例生成方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6778655B2 (ja) | 2020-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Obeid et al. | CAMeL tools: An open source python toolkit for Arabic natural language processing | |
Roark et al. | Processing South Asian languages written in the Latin script: the Dakshina dataset | |
JP6778655B2 (ja) | 単語連接識別モデル学習装置、単語連接検出装置、方法、及びプログラム | |
Alharbi et al. | Part-of-speech tagging for Arabic Gulf dialect using Bi-LSTM | |
Scherrer et al. | Modernising historical Slovene words | |
KR100911834B1 (ko) | 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정 방법 및 장치 | |
KR20230009564A (ko) | 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치 | |
Chua et al. | Text normalization infrastructure that scales to hundreds of language varieties | |
Lee et al. | Automatic word spacing using probabilistic models based on character n-grams | |
CN109977391B (zh) | 一种文本数据的信息抽取方法及装置 | |
JP2015169947A (ja) | モデル学習装置、形態素解析装置、及び方法 | |
Chennoufi et al. | Impact of morphological analysis and a large training corpus on the performances of Arabic diacritization | |
Tennage et al. | Transliteration and byte pair encoding to improve tamil to sinhala neural machine translation | |
Uchimoto et al. | Morphological analysis of the Corpus of Spontaneous Japanese | |
Li et al. | Chinese spelling check based on neural machine translation | |
KR20190021015A (ko) | 패러프레이징을 이용한 감정 사전 구축 및 이를 이용한 텍스트 상의 감정 구조 인식 시스템 및 방법 | |
Etxeberria et al. | Weighted finite-state transducers for normalization of historical texts | |
WO2020012813A1 (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
KR102204395B1 (ko) | 개체명 인식을 이용한 음성인식 띄어쓰기 보정 방법 및 시스템 | |
Murthy et al. | Kannada spell checker with sandhi splitter | |
KR20120045906A (ko) | 코퍼스 오류 교정 장치 및 그 방법 | |
Uchimoto et al. | Morphological analysis of a large spontaneous speech corpus in Japanese | |
JP6586055B2 (ja) | 深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラム | |
Asghari et al. | A probabilistic approach to persian ezafe recognition | |
Núñez et al. | Phonetic normalization for machine translation of user generated content |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190827 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200515 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200602 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200731 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201006 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201012 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6778655 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |