JP5464209B2 - 言語解析装置、方法、及びプログラム - Google Patents
言語解析装置、方法、及びプログラム Download PDFInfo
- Publication number
- JP5464209B2 JP5464209B2 JP2011507101A JP2011507101A JP5464209B2 JP 5464209 B2 JP5464209 B2 JP 5464209B2 JP 2011507101 A JP2011507101 A JP 2011507101A JP 2011507101 A JP2011507101 A JP 2011507101A JP 5464209 B2 JP5464209 B2 JP 5464209B2
- Authority
- JP
- Japan
- Prior art keywords
- division
- point
- dividing
- candidates
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Description
本発明の目的は、解析処理が受け入れ可能な最大入力長に応じて、長文を適切な長さの処理単位に分割することができる言語解析装置、言語解析方法を提供することにある。
次に、本発明の第1の実施の形態について図面を参照して詳細に説明する。
次に、図1及び図2のフローチャートを参照して、本実施の形態の動作について詳細に説明する。
次に、本実施の形態の効果について説明する。
次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。
Only Memory)、磁気ディスク、半導体メモリ等の不揮発性メモリから構成されるハードディスク装置等で実現される。
Claims (12)
- 適用によって解析精度に問題を生じる危険性に応じてレベル分けされた分割規則と、
予め定められた最大入力長より長い文字列が入力された場合に、問題の生じる危険性の少ないレベルの分割規則から順に前記分割規則を適用することによって入力文字列に対する分割点候補を生成する分割点候補生成手段と、
前記分割点候補生成手段で生成した分割点候補によって前記文字列を分割して得られる分割単位候補の長さが前記最大入力長より短い場合に、個々の分割単位が前記最大入力長を超えないように、同一レベルの分割規則によって得られた分割点候補の中から分割点の組み合わせを選択する分割点調整手段と、
前記分割点調整手段によって決定された分割点で入力文字列を分割する分割手段とを備え、
前記分割点調整手段が、
分割単位候補の先頭から順に隣接する分割単位候補の長さの和を計算し、前記長さの和が前記最大入力長を超えない場合に、当該隣接する分割単位候補の間の分割点候補を分割点として選択しない
ことを特徴とする言語解析装置。 - 適用によって解析精度に問題を生じる危険性に応じてレベル分けされた分割規則と、
予め定められた最大入力長より長い文字列が入力された場合に、問題の生じる危険性の少ないレベルの分割規則から順に前記分割規則を適用することによって入力文字列に対する分割点候補を生成する分割点候補生成手段と、
前記分割点候補生成手段で生成した分割点候補によって前記文字列を分割して得られる分割単位候補の長さが前記最大入力長より短い場合に、個々の分割単位が前記最大入力長を超えないように、同一レベルの分割規則によって得られた分割点候補の中から分割点の組み合わせを選択する分割点調整手段と、
前記分割点調整手段によって決定された分割点で入力文字列を分割する分割手段とを備え、
前記分割点調整手段が、
分割単位候補の末尾から順に隣接する分割単位候補の長さの和を計算し、前記長さの和が前記最大入力長を超えない場合に、当該隣接する分割単位候補の間の分割点候補を分割点として選択しない
ことを特徴とする言語解析装置。 - 適用によって解析精度に問題を生じる危険性に応じてレベル分けされた分割規則と、
予め定められた最大入力長より長い文字列が入力された場合に、問題の生じる危険性の少ないレベルの分割規則から順に前記分割規則を適用することによって入力文字列に対する分割点候補を生成する分割点候補生成手段と、
前記分割点候補生成手段で生成した分割点候補によって前記文字列を分割して得られる分割単位候補の長さが前記最大入力長より短い場合に、個々の分割単位が前記最大入力長を超えないように、同一レベルの分割規則によって得られた分割点候補の中から分割点の組み合わせを選択する分割点調整手段と、
前記分割点調整手段によって決定された分割点で入力文字列を分割する分割手段とを備え、
前記分割点調整手段が、
分割単位候補の中で短い分割単位候補から順に隣接する分割単位候補の長さの和を計算し、前記長さの和が前記最大入力長を超えない場合に、当該隣接する分割単位候補の間の分割点候補を分割点として選択しない
ことを特徴とする言語解析装置。 - 前記分割点調整手段が、前記分割単位候補の長さが前記最大入力長を超えると判定すると、前記分割点候補生成手段は、前回の分割規則より低いレベルの分割規則を適用して前記分割単位候補に対する新たな分割点候補を生成することを特徴とする請求項1から請求項3の何れか1項に記載の言語解析装置。
- 言語解析装置による言語解析方法であって、
前記言語解析装置の分割点候補生成手段が、予め定められた最大入力長より長い文字列が入力された場合に、適用によって解析精度に問題を生じる危険性に応じてレベル分けされた分割規則を、問題の生じる危険性の少ないレベルの分割規則から順に適用することによって、入力文字列に対する分割点候補を生成する分割点候補生成ステップを実行し、
前記言語解析装置の分割点調整手段が、前記分割点候補生成ステップで生成した分割点候補によって前記文字列を分割して得られる分割単位候補の長さが前記最大入力長より短い場合に、個々の分割単位が前記最大入力長を超えないように、同一レベルの分割規則によって得られた分割点候補の中から分割点の組み合わせを選択する分割点調整ステップを実行し、
前記言語解析装置の分割手段が、前記分割点調整ステップによって決定された分割点で入力文字列を分割する分割ステップを実行し、
前記分割点調整ステップにおいて、
分割単位候補の先頭から順に隣接する分割単位候補の長さの和を計算し、前記長さの和が前記最大入力長を超えない場合に当該隣接する分割単位候補の間の分割点候補を分割点として選択しない
ことを特徴とする言語解析方法。 - 言語解析装置による言語解析方法であって、
前記言語解析装置の分割点候補生成手段が、予め定められた最大入力長より長い文字列が入力された場合に、適用によって解析精度に問題を生じる危険性に応じてレベル分けされた分割規則を、問題の生じる危険性の少ないレベルの分割規則から順に適用することによって、入力文字列に対する分割点候補を生成する分割点候補生成ステップを実行し、
前記言語解析装置の分割点調整手段が、前記分割点候補生成ステップで生成した分割点候補によって前記文字列を分割して得られる分割単位候補の長さが前記最大入力長より短い場合に、個々の分割単位が前記最大入力長を超えないように、同一レベルの分割規則によって得られた分割点候補の中から分割点の組み合わせを選択する分割点調整ステップを実行し、
前記言語解析装置の分割手段が、前記分割点調整ステップによって決定された分割点で入力文字列を分割する分割ステップを実行し、
前記分割点調整ステップにおいて、
分割単位候補の末尾から順に隣接する分割単位候補の長さの和を計算し、前記長さの和が前記最大入力長を超えない場合に当該隣接する分割単位候補の間の分割点候補を分割点として選択しない
ことを特徴とする言語解析方法。 - 言語解析装置による言語解析方法であって、
前記言語解析装置の分割点候補生成手段が、予め定められた最大入力長より長い文字列が入力された場合に、適用によって解析精度に問題を生じる危険性に応じてレベル分けされた分割規則を、問題の生じる危険性の少ないレベルの分割規則から順に適用することによって、入力文字列に対する分割点候補を生成する分割点候補生成ステップを実行し、
前記言語解析装置の分割点調整手段が、前記分割点候補生成ステップで生成した分割点候補によって前記文字列を分割して得られる分割単位候補の長さが前記最大入力長より短い場合に、個々の分割単位が前記最大入力長を超えないように、同一レベルの分割規則によって得られた分割点候補の中から分割点の組み合わせを選択する分割点調整ステップを実行し、
前記言語解析装置の分割手段が、前記分割点調整ステップによって決定された分割点で入力文字列を分割する分割ステップを実行し、
前記分割点調整ステップにおいて、
分割単位候補の中で短い分割単位候補から順に隣接する分割単位候補の長さの和を計算し、前記長さの和が前記最大入力長を超えない場合に当該隣接する分割単位候補の間の分割点候補を分割点として選択しない
ことを特徴とする言語解析方法。 - 前記分割点調整ステップで、前記分割単位候補の長さが前記最大入力長を超えると判定すると、前記分割点候補生成ステップにおいて、前回の分割規則より低いレベルの分割規則を適用して前記分割単位候補に対する新たな分割点候補を生成することを特徴とする請求項5から請求項7の何れか1項に記載の言語解析方法。
- コンピュータ上で動作し、言語解析処理を行なう言語解析プログラムであって、
コンピュータに、
予め定められた最大入力長より長い文字列が入力された場合に、適用によって解析精度に問題を生じる危険性に応じてレベル分けされた分割規則を、問題の生じる危険性の少ないレベルの分割規則から順に適用することによって、入力文字列に対する分割点候補を生成する分割点候補生成処理と、
前記分割点候補生成処理で生成した分割点候補によって前記文字列を分割して得られる分割単位候補の長さが前記最大入力長より短い場合に、個々の分割単位が前記最大入力長を超えないように、同一レベルの分割規則によって得られた分割点候補の中から分割点の組み合わせを選択する分割点調整処理と、
前記分割点調整処理によって決定された分割点で入力文字列を分割する分割処理を、実行させ、
前記分割点調整処理において、
分割単位候補の先頭から順に隣接する分割単位候補の長さの和を計算し、前記長さの和が前記最大入力長を超えない場合に当該隣接する分割単位候補の間の分割点候補を分割点として選択しない
ことを特徴とする言語解析プログラム。 - コンピュータ上で動作し、言語解析処理を行なう言語解析プログラムであって、
コンピュータに、
予め定められた最大入力長より長い文字列が入力された場合に、適用によって解析精度に問題を生じる危険性に応じてレベル分けされた分割規則を、問題の生じる危険性の少ないレベルの分割規則から順に適用することによって、入力文字列に対する分割点候補を生成する分割点候補生成処理と、
前記分割点候補生成処理で生成した分割点候補によって前記文字列を分割して得られる分割単位候補の長さが前記最大入力長より短い場合に、個々の分割単位が前記最大入力長を超えないように、同一レベルの分割規則によって得られた分割点候補の中から分割点の組み合わせを選択する分割点調整処理と、
前記分割点調整処理によって決定された分割点で入力文字列を分割する分割処理を、実行させ、
前記分割点調整処理において、
分割単位候補の末尾から順に隣接する分割単位候補の長さの和を計算し、前記長さの和が前記最大入力長を超えない場合に当該隣接する分割単位候補の間の分割点候補を分割点として選択しない
ことを特徴とする言語解析プログラム。 - コンピュータ上で動作し、言語解析処理を行なう言語解析プログラムであって、
コンピュータに、
予め定められた最大入力長より長い文字列が入力された場合に、適用によって解析精度に問題を生じる危険性に応じてレベル分けされた分割規則を、問題の生じる危険性の少ないレベルの分割規則から順に適用することによって、入力文字列に対する分割点候補を生成する分割点候補生成処理と、
前記分割点候補生成処理で生成した分割点候補によって前記文字列を分割して得られる分割単位候補の長さが前記最大入力長より短い場合に、個々の分割単位が前記最大入力長を超えないように、同一レベルの分割規則によって得られた分割点候補の中から分割点の組み合わせを選択する分割点調整処理と、
前記分割点調整処理によって決定された分割点で入力文字列を分割する分割処理を、実行させ、
前記分割点調整処理において、
分割単位候補の中で短い分割単位候補から順に隣接する分割単位候補の長さの和を計算し、前記長さの和が前記最大入力長を超えない場合に当該隣接する分割単位候補の間の分割点候補を分割点として選択しない
ことを特徴とする言語解析プログラム。 - 前記分割点調整処理で、前記分割単位候補の長さが前記最大入力長を超えると判定すると、前記分割点候補生成処理において、前回の分割規則より低いレベルの分割規則を適用して前記分割単位候補に対する新たな分割点候補を生成することを特徴とする請求項9から請求項11の何れか1項に記載の言語解析プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011507101A JP5464209B2 (ja) | 2009-03-30 | 2010-03-23 | 言語解析装置、方法、及びプログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009081431 | 2009-03-30 | ||
JP2009081431 | 2009-03-30 | ||
JP2011507101A JP5464209B2 (ja) | 2009-03-30 | 2010-03-23 | 言語解析装置、方法、及びプログラム |
PCT/JP2010/054920 WO2010113691A1 (ja) | 2009-03-30 | 2010-03-23 | 言語解析装置、方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2010113691A1 JPWO2010113691A1 (ja) | 2012-10-11 |
JP5464209B2 true JP5464209B2 (ja) | 2014-04-09 |
Family
ID=42827986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011507101A Expired - Fee Related JP5464209B2 (ja) | 2009-03-30 | 2010-03-23 | 言語解析装置、方法、及びプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US8977539B2 (ja) |
EP (1) | EP2416256A4 (ja) |
JP (1) | JP5464209B2 (ja) |
CN (1) | CN102369524B (ja) |
WO (1) | WO2010113691A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10755183B1 (en) * | 2016-01-28 | 2020-08-25 | Evernote Corporation | Building training data and similarity relations for semantic space |
JP6631930B2 (ja) * | 2017-02-07 | 2020-01-15 | パナソニックIpマネジメント株式会社 | 翻訳装置および翻訳方法 |
CN112085585A (zh) * | 2020-08-03 | 2020-12-15 | 北京贝壳时代网络科技有限公司 | 一种信用风险等级评估方法及系统 |
CN111680493B (zh) * | 2020-08-12 | 2021-05-07 | 江西风向标教育科技有限公司 | 英语文本分析方法、装置、可读存储介质及计算机设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0512329A (ja) * | 1991-07-05 | 1993-01-22 | Canon Inc | 機械翻訳方式 |
JPH08190563A (ja) * | 1995-01-12 | 1996-07-23 | Sharp Corp | 機械翻訳装置 |
JPH08235180A (ja) * | 1995-02-27 | 1996-09-13 | Sharp Corp | 機械翻訳装置 |
JP2002117019A (ja) * | 2000-10-02 | 2002-04-19 | Hewlett Packard Co <Hp> | 意味的まとまりに基づいて文書を分割する装置および方法 |
JP2005284723A (ja) * | 2004-03-30 | 2005-10-13 | Fuji Xerox Co Ltd | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61255468A (ja) | 1985-05-08 | 1986-11-13 | Toshiba Corp | 機械翻訳処理装置 |
JPH01234975A (ja) * | 1988-03-11 | 1989-09-20 | Internatl Business Mach Corp <Ibm> | 日本語文章分割装置 |
US5369574A (en) * | 1990-08-01 | 1994-11-29 | Canon Kabushiki Kaisha | Sentence generating system |
JP3173514B2 (ja) | 1991-08-28 | 2001-06-04 | 松下電器産業株式会社 | 機械翻訳機 |
US6651039B1 (en) * | 1995-08-08 | 2003-11-18 | Matsushita Electric Industrial Co., Ltd. | Mechanical translation apparatus and method |
CN100424685C (zh) | 2005-09-08 | 2008-10-08 | 中国科学院自动化研究所 | 一种基于标点处理的层次化汉语长句句法分析方法及装置 |
EP2070087A2 (en) * | 2006-09-27 | 2009-06-17 | Koninklijke Philips Electronics N.V. | Method of creating a summary |
CN100543727C (zh) * | 2006-12-21 | 2009-09-23 | 中国科学院计算技术研究所 | 一种融合了句型模板和统计机器翻译技术的翻译方法 |
JP5323425B2 (ja) | 2007-09-03 | 2013-10-23 | 株式会社アルバック | 半導体装置の製造方法 |
-
2010
- 2010-03-23 JP JP2011507101A patent/JP5464209B2/ja not_active Expired - Fee Related
- 2010-03-23 US US13/256,697 patent/US8977539B2/en not_active Expired - Fee Related
- 2010-03-23 CN CN201080014350.3A patent/CN102369524B/zh not_active Expired - Fee Related
- 2010-03-23 EP EP10758465.8A patent/EP2416256A4/en not_active Withdrawn
- 2010-03-23 WO PCT/JP2010/054920 patent/WO2010113691A1/ja active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0512329A (ja) * | 1991-07-05 | 1993-01-22 | Canon Inc | 機械翻訳方式 |
JPH08190563A (ja) * | 1995-01-12 | 1996-07-23 | Sharp Corp | 機械翻訳装置 |
JPH08235180A (ja) * | 1995-02-27 | 1996-09-13 | Sharp Corp | 機械翻訳装置 |
JP2002117019A (ja) * | 2000-10-02 | 2002-04-19 | Hewlett Packard Co <Hp> | 意味的まとまりに基づいて文書を分割する装置および方法 |
JP2005284723A (ja) * | 2004-03-30 | 2005-10-13 | Fuji Xerox Co Ltd | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム |
Also Published As
Publication number | Publication date |
---|---|
JPWO2010113691A1 (ja) | 2012-10-11 |
CN102369524A (zh) | 2012-03-07 |
US20120016664A1 (en) | 2012-01-19 |
EP2416256A4 (en) | 2017-09-20 |
WO2010113691A1 (ja) | 2010-10-07 |
CN102369524B (zh) | 2014-08-13 |
US8977539B2 (en) | 2015-03-10 |
EP2416256A1 (en) | 2012-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6493866B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US8612206B2 (en) | Transliterating semitic languages including diacritics | |
JP5377889B2 (ja) | 言語処理装置およびプログラム | |
US7761301B2 (en) | Prosodic control rule generation method and apparatus, and speech synthesis method and apparatus | |
US8788266B2 (en) | Language model creation device, language model creation method, and computer-readable storage medium | |
JP7100747B2 (ja) | 学習データ生成方法および装置 | |
US9110871B2 (en) | Correcting a document character size based on the average value of each character size | |
JP2008262279A (ja) | 音声検索装置 | |
JP5464209B2 (ja) | 言語解析装置、方法、及びプログラム | |
US8650034B2 (en) | Speech processing device, speech processing method, and computer program product for speech processing | |
US20100125459A1 (en) | Stochastic phoneme and accent generation using accent class | |
JP5625827B2 (ja) | 形態素解析装置、音声合成装置、形態素解析方法及び形態素解析プログラム | |
US10061752B2 (en) | Method and apparatus for generating a font of which style is changeable | |
CN114239589A (zh) | 语义理解模型的鲁棒性评估方法、装置及计算机设备 | |
KR101860472B1 (ko) | 오픈 디렉터리 프로젝트 기반의 텍스트 분류기, 및 텍스트 분류기의 생성 및 분류 방법 | |
JP4055638B2 (ja) | 文書処理装置 | |
KR102284903B1 (ko) | 입력 시퀀스 생성 방법 및 장치 | |
JP2009176148A (ja) | 未知語判定システム、方法及びプログラム | |
JP2010170252A (ja) | 言語モデル作成方法、言語モデル作成装置および言語モデル作成プログラム | |
US20230205997A1 (en) | Information processing apparatus, operation method of information processing apparatus, and operation program of information processing apparatus | |
WO2021166231A1 (ja) | シナリオ生成装置、シナリオ生成方法、及びコンピュータ読み取り可能な記録媒体 | |
JP2006277674A (ja) | 文分割コンピュータプログラム | |
JP6907703B2 (ja) | 解析装置、解析方法、および解析プログラム | |
Golcher | A stable statistical constant specific for human language texts | |
JP2007058311A (ja) | コーパス加算装置、及びコーパス加算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130207 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130801 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130924 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20131010 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131224 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140106 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5464209 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |