JP5646792B2 - 単語分割装置、単語分割方法、及び単語分割プログラム - Google Patents
単語分割装置、単語分割方法、及び単語分割プログラム Download PDFInfo
- Publication number
- JP5646792B2 JP5646792B2 JP2014532167A JP2014532167A JP5646792B2 JP 5646792 B2 JP5646792 B2 JP 5646792B2 JP 2014532167 A JP2014532167 A JP 2014532167A JP 2014532167 A JP2014532167 A JP 2014532167A JP 5646792 B2 JP5646792 B2 JP 5646792B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- word candidate
- transliteration
- score
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 42
- 238000004364 calculation method Methods 0.000 claims description 47
- 230000011218 segmentation Effects 0.000 claims description 33
- 238000013519 translation Methods 0.000 claims description 23
- 238000012545 processing Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 150000001875 compounds Chemical class 0.000 description 18
- 230000014509 gene expression Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 4
- 230000000877 morphologic effect Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 2
- 241001115903 Raphus cucullatus Species 0.000 description 1
- 208000003028 Stuttering Diseases 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004836 empirical method Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
- G06F40/129—Handling non-Latin characters, e.g. kana-to-kanji conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Description
さらに別の側面に係る単語分割装置では、分割部が、直前での分割が行われない禁止文字のリストを参照して、該禁止文字以外の文字の前でのみ入力文字列を分割してもよい。この場合には、原言語の構造上有り得ない単語の生成を、単語候補を生成する段階で回避できるので、生成される単語候補列の個数を少なくすることができる。その結果、その後の翻字処理及びスコア算出処理に掛かる時間を短縮することができる。
y*=argmaxy∈Y(x)w・φ(y) …(1)
φ(y)=Σi[φ1(wi)+φ2(wi−1,wi)] …(2)
c1|c2c3c4
c1c2|c3c4
c1c2c3|c4
c1|c2|c3c4
c1|c2c3|c4
c1c2|c3|c4
c1|c2|c3|c4
「コー(ko−)/cor」
「チ(chi)/ch」
「ド(do)/ed」
Claims (6)
- 原言語で記述された入力文字列を受け付ける受付部と、
前記入力文字列を一以上の単語候補に分割する処理を複数の分割パターンを用いて実行することで、複数種類の単語候補列を取得する分割部と、
各単語候補列内の各単語候補を翻訳言語に翻字する翻字部と、
前記翻訳言語のコーパスを参照して、翻字された各単語候補列の尤もらしさをスコアとして求める算出部と、
前記スコアに基づいて選択した前記単語候補列を出力する出力部と
を備え、
前記算出部が、前記翻訳言語のコーパスにおける単語ユニグラムの出現確率と該コーパスにおける単語バイグラムの出現確率とを、前記翻字された単語候補列内の各単語候補について求め、これら二種類の出現確率に基づいて該単語候補列の前記スコアを求める、
単語分割装置。 - 前記算出部が、前記単語候補列内の各単語候補について前記二種類の出現確率の対数の和を求め、該出現確率の対数の和を合計することで該単語候補列の前記スコアを求める、
請求項1に記載の単語分割装置。 - 前記出力部が、前記スコアが最も高い前記単語候補列を出力する、
請求項1または2に記載の単語分割装置。 - 前記翻字部が、翻字ペアを記憶するトレーニング・コーパスを参照して翻字処理を実行し、
前記出力部が、前記選択した単語候補列から得られる前記翻字ペアを前記トレーニング・コーパスに登録する、
請求項1〜3のいずれか一項に記載の単語分割装置。 - 単語分割装置により実行される単語分割方法であって、
原言語で記述された入力文字列を受け付ける受付ステップと、
前記入力文字列を一以上の単語候補に分割する処理を複数の分割パターンを用いて実行することで、複数種類の単語候補列を取得する分割ステップと、
各単語候補列内の各単語候補を翻訳言語に翻字する翻字ステップと、
前記翻訳言語のコーパスを参照して、翻字された各単語候補列の尤もらしさをスコアとして求める算出ステップと、
前記スコアに基づいて選択した前記単語候補列を出力する出力ステップと
を含み、
前記算出ステップでは、前記翻訳言語のコーパスにおける単語ユニグラムの出現確率と該コーパスにおける単語バイグラムの出現確率とを、前記翻字された単語候補列内の各単語候補について求め、これら二種類の出現確率に基づいて該単語候補列の前記スコアを求める、
単語分割方法。 - 原言語で記述された入力文字列を受け付ける受付部と、
前記入力文字列を一以上の単語候補に分割する処理を複数の分割パターンを用いて実行することで、複数種類の単語候補列を取得する分割部と、
各単語候補列内の各単語候補を翻訳言語に翻字する翻字部と、
前記翻訳言語のコーパスを参照して、翻字された各単語候補列の尤もらしさをスコアとして求める算出部と、
前記スコアに基づいて選択した前記単語候補列を出力する出力部と
としてコンピュータを機能させ、
前記算出部が、前記翻訳言語のコーパスにおける単語ユニグラムの出現確率と該コーパスにおける単語バイグラムの出現確率とを、前記翻字された単語候補列内の各単語候補について求め、これら二種類の出現確率に基づいて該単語候補列の前記スコアを求める、
単語分割プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261734039P | 2012-12-06 | 2012-12-06 | |
US61/734039 | 2012-12-06 | ||
PCT/JP2013/071706 WO2014087703A1 (ja) | 2012-12-06 | 2013-08-09 | 単語分割装置、単語分割方法、及び単語分割プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP5646792B2 true JP5646792B2 (ja) | 2014-12-24 |
JPWO2014087703A1 JPWO2014087703A1 (ja) | 2017-01-05 |
Family
ID=50883134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014532167A Active JP5646792B2 (ja) | 2012-12-06 | 2013-08-09 | 単語分割装置、単語分割方法、及び単語分割プログラム |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP5646792B2 (ja) |
KR (1) | KR101544690B1 (ja) |
WO (1) | WO2014087703A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502737A (zh) * | 2018-05-18 | 2019-11-26 | 中国医学科学院北京协和医院 | 一种基于医学专业词典与统计算法的分词方法 |
WO2021107445A1 (ko) * | 2019-11-25 | 2021-06-03 | 주식회사 데이터마케팅코리아 | 지식 그래프 및 국가별 음역 전환 기반 신조어 정보 서비스 제공 방법 및 그 장치 |
US11675928B2 (en) | 2018-01-05 | 2023-06-13 | Samsung Electronics Co., Ltd. | Electronic device for obfuscating and decoding data and method for controlling same |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183923B (zh) * | 2015-10-27 | 2018-06-22 | 上海智臻智能网络科技股份有限公司 | 新词发现方法及装置 |
CN106815593B (zh) * | 2015-11-27 | 2019-12-10 | 北京国双科技有限公司 | 中文文本相似度的确定方法和装置 |
KR102251832B1 (ko) | 2016-06-16 | 2021-05-13 | 삼성전자주식회사 | 번역 서비스를 제공하는 전자 장치 및 방법 |
KR102016601B1 (ko) * | 2016-11-29 | 2019-08-30 | 주식회사 닷 | 제한된 영역을 활용한 데이터 변환 장치, 방법 및 컴퓨터 프로그램 |
WO2018101735A1 (ko) * | 2016-11-29 | 2018-06-07 | 주식회사 닷 | 제한된 영역을 활용한 데이터 변환 장치, 방법 및 컴퓨터 프로그램 |
CN108664545A (zh) * | 2018-03-26 | 2018-10-16 | 商洛学院 | 一种英语翻译学习用数据处理方法 |
CN111241832B (zh) * | 2020-01-15 | 2023-08-15 | 北京百度网讯科技有限公司 | 核心实体标注方法、装置及电子设备 |
-
2013
- 2013-08-09 JP JP2014532167A patent/JP5646792B2/ja active Active
- 2013-08-09 KR KR1020157004668A patent/KR101544690B1/ko active IP Right Grant
- 2013-08-09 WO PCT/JP2013/071706 patent/WO2014087703A1/ja active Application Filing
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11675928B2 (en) | 2018-01-05 | 2023-06-13 | Samsung Electronics Co., Ltd. | Electronic device for obfuscating and decoding data and method for controlling same |
CN110502737A (zh) * | 2018-05-18 | 2019-11-26 | 中国医学科学院北京协和医院 | 一种基于医学专业词典与统计算法的分词方法 |
CN110502737B (zh) * | 2018-05-18 | 2023-02-17 | 中国医学科学院北京协和医院 | 一种基于医学专业词典与统计算法的分词方法 |
WO2021107445A1 (ko) * | 2019-11-25 | 2021-06-03 | 주식회사 데이터마케팅코리아 | 지식 그래프 및 국가별 음역 전환 기반 신조어 정보 서비스 제공 방법 및 그 장치 |
Also Published As
Publication number | Publication date |
---|---|
WO2014087703A1 (ja) | 2014-06-12 |
KR101544690B1 (ko) | 2015-08-13 |
KR20150033735A (ko) | 2015-04-01 |
JPWO2014087703A1 (ja) | 2017-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5646792B2 (ja) | 単語分割装置、単語分割方法、及び単語分割プログラム | |
CN105917327B (zh) | 用于将文本输入到电子设备中的系统和方法 | |
US7752032B2 (en) | Apparatus and method for translating Japanese into Chinese using a thesaurus and similarity measurements, and computer program therefor | |
US20070021956A1 (en) | Method and apparatus for generating ideographic representations of letter based names | |
US20080059146A1 (en) | Translation apparatus, translation method and translation program | |
JP2014078132A (ja) | 機械翻訳装置、方法およびプログラム | |
WO2005059771A1 (ja) | 対訳判断装置、方法及びプログラム | |
WO2005091167A2 (en) | Systems and methods for translating chinese pinyin to chinese characters | |
KR101664258B1 (ko) | 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템 | |
JP6404511B2 (ja) | 翻訳支援システム、翻訳支援方法、および翻訳支援プログラム | |
JP5204244B2 (ja) | 誤訳の検出を支援する装置及び方法 | |
US20050273316A1 (en) | Apparatus and method for translating Japanese into Chinese and computer program product | |
KR20160143491A (ko) | 텍스트 분할 프로그램, 텍스트 분할 장치, 및 텍스트 분할 방법 | |
US8554539B2 (en) | Method for analyzing morpheme using additional information and morpheme analyzer for executing the method | |
KR101083455B1 (ko) | 통계 데이터에 기초한 사용자 질의 교정 시스템 및 방법 | |
Ganfure et al. | Design and implementation of morphology based spell checker | |
Yang et al. | Spell Checking for Chinese. | |
Mori et al. | Language Resource Addition: Dictionary or Corpus? | |
JP2008204399A (ja) | 略語抽出方法、略語抽出装置およびプログラム | |
JP2006201873A (ja) | 未登録語自動抽出装置及びプログラム、並びに未登録語自動登録装置及びプログラム | |
Hsieh et al. | Correcting Chinese spelling errors with word lattice decoding | |
JP2009157888A (ja) | 音訳モデル作成装置、音訳装置、及びそれらのためのコンピュータプログラム | |
JP2009176148A (ja) | 未知語判定システム、方法及びプログラム | |
JP6303508B2 (ja) | 文書分析装置、文書分析システム、文書分析方法およびプログラム | |
JP4845921B2 (ja) | 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141009 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141104 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141105 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5646792 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D02 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |