JP5436868B2 - 正解判定装置、正解判定システム、正解判定方法および正解判定プログラム - Google Patents
正解判定装置、正解判定システム、正解判定方法および正解判定プログラム Download PDFInfo
- Publication number
- JP5436868B2 JP5436868B2 JP2009004949A JP2009004949A JP5436868B2 JP 5436868 B2 JP5436868 B2 JP 5436868B2 JP 2009004949 A JP2009004949 A JP 2009004949A JP 2009004949 A JP2009004949 A JP 2009004949A JP 5436868 B2 JP5436868 B2 JP 5436868B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- sentence information
- correction rule
- unit
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
そこで、特許文献1には、解析対象の文章情報に応じた口語特有の言い回しをユーザが辞書登録し、登録された言い回しに基づいて形態素解析を行う技術が提案されている。ここでは、解析対象の文章情報に含まれる単語のうち、通常はひらがな表記される語が意図的にカタカナ表記にされているような強調表現を、定められた修正ルールに基づいて検出し、通常の表記に修正してから形態素解析が行われる。特許文献2には、解析対象となる文章中でのある文字列の前後の文字列の確率分布を算出し、同一品詞に属する単語の確率分布は類似するという仮定に基づいて品詞推定を行う技術が提案されている。
図1は、本実施形態による正解判定システム1の構成を示すブロック図である。正解判定システム1は、テキストコーパス記憶装置10と、修正ルール記憶装置20と、ラベル付与装置30と、スコアリング部41と、ルール特殊化装置50と、ルール結合装置60と、ルール汎用化装置70と、能動学習装置80と、入力端末89とを備えている。
形態素解析部34は、適用文抽出部31から入力される適用前文と、修正ルール適用部32から入力される適用後文との入力を受け付けて、入力された適用前文と適用後文とを、既知語記憶部33に記憶された辞書情報に基づいた形態素解析を行い、それぞれの文を形態素に分割する。形態素解析とは、例えば、自然言語による文章を、自然言語の規則に応じた品詞の接続制限に基づいて辞書情報に含まれる既知語に分割し、語の境界を判別して、文章を構成する最小単位である形態素を抽出する処理である。例えば、「庭には二羽ニワトリがいる」との文は、形態素解析を行うことにより、「庭」(名詞)、「に」(助詞)、「は」(助詞)、「二」(名詞)、「羽」(名詞)、「ニワトリ」(名詞)、「が」(助詞)、「いる」(動詞)、のように形態素に分割される。
図3は、ラベル付与装置30の動作例を示す図である。適用文抽出部31は、テキストコーパス記憶装置10から解析対象となる文章情報を読み出し(ステップS1)、修正ルール記憶装置20から修正ルールを読み出す(ステップS2)。適用文抽出部31は、解析対象の文章情報から、修正ルールを適用可能な適用前文を抽出し、形態素解析部34に入力する(ステップS3、S4)。また、適用文抽出部31は、適用前文と修正ルールとを修正ルール適用部32に入力する(ステップS5)。
10 テキストコーパス記憶装置
20 修正ルール記憶装置
30 ラベル付与装置
31 適用文抽出部
32 修正ルール適用部
33 既知語記憶部
34 形態素解析部
35 ラベル判定部
40 スコアリング装置
41 スコアリング部
42 修正ルール登録部
50 ルール特殊化装置
60 ルール結合装置
61 修正ルール選択部
62 修正ルール結合部
70 ルール汎用化装置
80 能動学習装置
81 優先度決定部
89 入力端末
Claims (10)
- 既知の語であることが予め定められた既知語が記憶される既知語記憶部と、
複数の語から構成される第1の文章情報と、当該第1の文章情報に含まれる前記複数の語のうちいずれかの語が他の語に置換された第2の文章情報との入力を受け付け、入力された前記第1の文章情報と前記第2の文章情報とを複数の語に分割する解析部と、
前記解析部が分割した語と、前記既知語記憶部に記憶されている既知語とを比較して、前記既知語記憶部に記憶されていれば既知語であると判定し、前記既知語記憶部に記憶されていなければ未知語であると判定する正解判定部と、
前記正解判定部の判定結果に基づいて、前記第1の文章情報に基づく語が未知語であり、当該語が置換された前記第2の文章情報に基づく語が既知語である語の組み合わせを検出する検出部と、
前記検出部が検出した語の組み合わせに基づいて、解析対象の文章情報に含まれる未知語を既知語に置換する置換処理部と、
を備えることを特徴とする正解判定装置。 - 前記第1の文章情報が記憶される解析対象情報記憶部と、
前記第1の文章情報に含まれる複数の語のうち修正対象となる第1の文字列と、当該第1の文字列を置換する第2の文字列とが対応付けられた修正ルールが記憶される修正ルール記憶部と、を備え、
前記置換処理部は、前記修正ルール記憶部に記憶されている前記修正ルールに基づいて、前記第1の文章情報に含まれる前記第1の文字列を抽出し、抽出した第1の文字列を前記第2の文字列に置換した第2の文章情報を生成する修正処理を行い、当該第1の文章情報と当該第2の文章情報とを前記解析部に入力する
ことを特徴とする請求項1に記載の正解判定装置。 - 前記検出部が検出した前記語の組み合わせのうち、前記第1の文章情報に基づく語を前記第1の文字列とし、検出した前記第2の文章情報に基づく語を前記第2の文字列として対応付けた前記修正ルールを生成して前記修正ルール記憶部に記憶させる修正ルール登録部と、
をさらに備えることを特徴とする請求項2に記載の正解判定装置。 - 前記修正ルール登録部は、前記検出部が検出した前記第1の文章情報に基づく語と、前記第2の文章情報に基づく語とに、それぞれの文章中で隣接する他の語を連結して対応付けた修正ルールを生成して前記修正ルール記憶部に記憶させる
ことを特徴とする請求項3に記載の正解判定装置。 - 前記修正ルール登録部は、前記第1の文章情報に基づく語に隣接する他の語を連結した複数の語と、前記第2の文章情報に基づく語に隣接する他の語を連結した複数の語とにおいて、共通するプレフィックスまたはサフィックスを削除した語を対応付けた修正ルールを生成して前記修正ルール記憶部に記憶させる
ことを特徴とする請求項4に記載の正解判定装置。 - 前記置換処理部は、前記正解判定部によって、前記第1の文章情報に基づく語と、前記第2の文章情報に基づく語との双方が未知語であると判定された場合、前記修正ルールに記憶された他の修正ルールに基づいて再度の修正処理を行い、
前記修正ルール登録部は、前記置換処理部によって行われた再度の修正処理の処理結果に基づいて前記検出部が検出した前記第1の文章情報に基づく語を前記第1の文字列とし、検出した前記第2の文章情報に基づく語を前記第2の文字列として対応付けた前記修正ルールを生成して前記修正ルール記憶部に記憶させる
ことを特徴とする請求項3から請求項5までのいずれか1項に記載の正解判定装置。 - 前記正解判定部によって、前記第1の文章情報に基づく語と、前記第2の文章情報に基づく語との双方が未知語であると判定された場合、前記第1の文字列に対応する前記第2の文字列の入力を受付ける入力部をさらに備え、
前記修正ルール登録部は、前記検出部が検出した前記第1の文章情報に基づく語を前記第1の文字列とし、前記入力部に入力された語を前記第2の文字列として対応付けた前記修正ルールを生成して前記修正ルール記憶部に記憶させる
ことを特徴とする請求項3から請求項6までのいずれか1項に記載の正解判定装置。 - 複数の語から構成される第1の文章情報が記憶される解析対象情報記憶装置と、
修正対象となる第1の文字列と、当該第1の文字列を置換する第2の文字列とが対応付けられた修正ルールが記憶される修正ルール記憶装置と、
既知の語であることが予め定められた既知語が記憶される既知語記憶部と、
前記修正ルール記憶装置に記憶されている前記修正ルールに基づいて、前記第1の文章情報に含まれる前記第1の文字列を抽出し、抽出した第1の文字列を前記第2の文字列に置換した第2の文章情報を生成する修正処理を行う置換処理部と、
複数の語から構成される第1の文章情報と、当該第1の文章情報に含まれる前記複数の語のうちいずれかの語が他の語に置換された第2の文章情報との入力を受け付け、入力された前記第1の文章情報と前記第2の文章情報とを複数の語に分割する解析部と、
前記解析部が分割した語と、前記既知語記憶部に記憶されている既知語とを比較して、前記既知語記憶部に記憶されていれば既知語であると判定し、前記既知語記憶部に記憶されていなければ未知語であると判定する正解判定部と、
前記正解判定部の判定結果に基づいて、前記第1の文章情報に基づく語が未知語であり、当該語が置換された前記第2の文章情報に基づく語が既知語である語の組み合わせを検出する検出部と、を備える正解判定装置と、
前記正解判定装置の前記検出部による検出結果に基づいて、前記第1の文章情報に基づく語を前記第1の文字列とし、前記第2の文章情報に基づく語を前記第2の文字列として対応付けた前記修正ルールを生成し、前記修正ルール記憶装置に記憶させる修正ルール登録装置と、
を備えることを特徴とする正解判定システム。 - 既知の語であることが予め定められた既知語が記憶される既知語記憶部を備える正解判定装置の正解判定方法であって、
複数の語から構成される第1の文章情報と、当該第1の文章情報に含まれる前記複数の語のうちいずれかの語が他の語に置換された第2の文章情報との入力を受け付け、入力された前記第1の文章情報と前記第2の文章情報とを複数の語に分割するステップと、
分割した語と、前記既知語記憶部に記憶されている既知語とを比較して、前記既知語記憶部に記憶されていれば既知語であると判定し、前記既知語記憶部に記憶されていなければ未知語であると判定するステップと、
判定結果に基づいて、前記第1の文章情報に基づく語が未知語であり、当該語が置換された前記第2の文章情報に基づく語が既知語である語の組み合わせを検出するステップと、
検出した語の組み合わせに基づいて、解析対象の文章情報に含まれる未知語を既知語に置換するステップと、
を備えることを特徴とする正解判定方法。 - 既知の語であることが予め定められた既知語が記憶される既知語記憶部を備える正解判定装置のコンピュータに、
複数の語から構成される第1の文章情報と、当該第1の文章情報に含まれる前記複数の語のうちいずれかの語が他の語に置換された第2の文章情報との入力を受け付け、入力された前記第1の文章情報と前記第2の文章情報とを複数の語に分割するステップと、
分割した語と、前記既知語記憶部に記憶されている既知語とを比較して、前記既知語記憶部に記憶されていれば既知語であると判定し、前記既知語記憶部に記憶されていなければ未知語であると判定するステップと、
判定結果に基づいて、前記第1の文章情報に基づく語が未知語であり、当該語が置換された前記第2の文章情報に基づく語が既知語である語の組み合わせを検出するステップと、
検出した語の組み合わせに基づいて、解析対象の文章情報に含まれる未知語を既知語に置換するステップと、
を実行させる正解判定プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009004949A JP5436868B2 (ja) | 2009-01-13 | 2009-01-13 | 正解判定装置、正解判定システム、正解判定方法および正解判定プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009004949A JP5436868B2 (ja) | 2009-01-13 | 2009-01-13 | 正解判定装置、正解判定システム、正解判定方法および正解判定プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010165041A JP2010165041A (ja) | 2010-07-29 |
JP5436868B2 true JP5436868B2 (ja) | 2014-03-05 |
Family
ID=42581170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009004949A Expired - Fee Related JP5436868B2 (ja) | 2009-01-13 | 2009-01-13 | 正解判定装置、正解判定システム、正解判定方法および正解判定プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5436868B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101509727B1 (ko) * | 2013-10-02 | 2015-04-07 | 주식회사 시스트란인터내셔널 | 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법 |
CN104915335B (zh) * | 2015-06-12 | 2018-03-16 | 百度在线网络技术(北京)有限公司 | 为主题文档集生成摘要的方法和装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3126945B2 (ja) * | 1997-10-30 | 2001-01-22 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 文字誤り校正装置 |
JP2006235916A (ja) * | 2005-02-24 | 2006-09-07 | Mitsubishi Electric Corp | テキスト解析装置およびテキスト解析方法ならびに音声合成装置 |
JP2008299675A (ja) * | 2007-05-31 | 2008-12-11 | Yahoo Japan Corp | かな混在表記抽出装置、方法及びプログラム |
-
2009
- 2009-01-13 JP JP2009004949A patent/JP5436868B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010165041A (ja) | 2010-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11113234B2 (en) | Semantic extraction method and apparatus for natural language, and computer storage medium | |
US7269544B2 (en) | System and method for identifying special word usage in a document | |
US9621624B2 (en) | Methods and apparatus for inserting content into conversations in on-line and digital environments | |
CN111291195B (zh) | 一种数据处理方法、装置、终端及可读存储介质 | |
US9524291B2 (en) | Visual display of semantic information | |
US8612206B2 (en) | Transliterating semitic languages including diacritics | |
CN1618064B (zh) | 翻译方法与计算机设备 | |
CN104915264A (zh) | 一种输入纠错方法和装置 | |
CN111401033A (zh) | 事件抽取方法、事件抽取装置和电子设备 | |
JP2010181993A (ja) | 絵文字を含む文章ファイルを評価する評価分析サーバ、方法及びプログラム | |
Selamat et al. | Word-length algorithm for language identification of under-resourced languages | |
CN101308512B (zh) | 一种基于网页的互译翻译对抽取方法及装置 | |
CN110245349A (zh) | 一种句法依存分析方法、装置及一种电子设备 | |
CN112380337A (zh) | 基于富文本的高亮方法及装置 | |
JPH10326275A (ja) | 形態素解析方法および装置、並びに日本語形態素解析方法および装置 | |
CN115169329A (zh) | 一种基于Bert的中文文本纠错方法、设备及存储介质 | |
JP5436868B2 (ja) | 正解判定装置、正解判定システム、正解判定方法および正解判定プログラム | |
KR102422923B1 (ko) | 감성 분석장치 및 그 제어 방법 그리고 신조어 및 이모티콘 추출 장치 | |
KR102345815B1 (ko) | 타겟 단어가 포함된 문장 생성 방법 및 시스템 | |
JP4088171B2 (ja) | テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体 | |
JP5337575B2 (ja) | 候補語抽出装置、候補語抽出方法及び候補語抽出プログラム | |
Chaonithi et al. | A hybrid approach for Thai word segmentation with crowdsourcing feedback system | |
JP5495425B2 (ja) | 未知語を含む文章を修正するための文章修正プログラム、方法及び文章解析サーバ | |
Lyon et al. | Reducing the Complexity of Parsing by a Method of Decomposition. | |
CN114490976B (zh) | 对话摘要训练数据的生成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110819 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110823 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130226 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130425 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130426 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130604 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130801 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130802 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130903 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131101 Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20131101 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131126 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131211 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5436868 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |