JP5020352B2 - 名前付き要素マーク付け装置、名前付き要素マーク付け方法及びそのコンピュータ読出可能な媒体 - Google Patents
名前付き要素マーク付け装置、名前付き要素マーク付け方法及びそのコンピュータ読出可能な媒体 Download PDFInfo
- Publication number
- JP5020352B2 JP5020352B2 JP2010132907A JP2010132907A JP5020352B2 JP 5020352 B2 JP5020352 B2 JP 5020352B2 JP 2010132907 A JP2010132907 A JP 2010132907A JP 2010132907 A JP2010132907 A JP 2010132907A JP 5020352 B2 JP5020352 B2 JP 5020352B2
- Authority
- JP
- Japan
- Prior art keywords
- named
- marked
- named element
- document
- processor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Description
《関連する出願への相互参照》
本出願は、2010年4月14日付で出願した台湾特許出願第099111577号に基づく優先権を主張するものである。
を伝統的な中国語の単語「妙麗(伝統的な中国語で表したハーマイオニー)」に変換する。また、プロセッサ13は構造テンプレート「<td>魔法学校の首席・・・</td>」内に情報「魔法学校の首席・・・」が存在することを検出しこの情報を取り出す。
13 プロセッサ
110 電子文書
112 名前付き要素データベース
Claims (17)
- 電子文書と、1つ以上の分類にそれぞれ対応する複数の名前付き要素を含む名前付き要素データベースとを記憶するよう構成された記憶部と、
該記憶部に電気的に接続されたプロセッサと
を備え、
該プロセッサは
該名前付き要素データベース内の第1セットに従って該電子文書にマーク付けして、それぞれが該第1セットに含まれる名前付き要素の1つである複数のマーク付けされた名前付き要素を有する第1マーク付き文書にし、
該複数のマーク付けされた名前付き要素に対応する分類から1つ以上の第1の選択された分類を決定し、
該1つ以上の第1の選択された分類に従って該名前付き要素データベース内の第2セットを規定し、
該第2セットに従って該電子文書に再度マーク付けして第2マーク付き文書にするよう構成されている名前付き要素マーク付け装置。 - 前記プロセッサは、複数の統計値に従って前記1つ以上の第1の選択された分類を決定し、該各統計値は1つの分類に対応するマーク付けされた名前付き要素のそれぞれが前記第1マーク付き文書においてマーク付けされた回数の和である請求項1に記載の名前付き要素マーク付け装置。
- 前記第2セットは、前記名前付き要素データベース内の前記1つ以上の第1の選択された分類に対応する名前付き要素からなる請求項1に記載の名前付き要素マーク付け装置。
- 前記各名前付き要素は情報に更に対応し、前記第2マーク付き文書は複数のマーク付けされた名前付き要素を有し、該第2マーク付き文書の該各マーク付けされた名前付き要素は前記第2セットに含まれる名前付き要素の1つであり、
前記プロセッサは該第2マーク付き文書の該マーク付けされた名前付き要素に対応する該情報に従って前記名前付き要素データベース内の第3セットを決定し、該第3セットに従って該第2マーク付き文書にマーク付けして第3マーク付き文書にするよう更に構成されている請求項1に記載の名前付き要素マーク付け装置。 - 前記プロセッサは前記第2マーク付き文書の前記マーク付けされた名前付き要素に対応する前記情報は、該第2マーク付き文書内の1つ以上のマーク付けされていない名前付き要素を含むことを見つけ、該1つ以上のマーク付けされていない名前付き要素が前記第2セットに含まれず、第2の選択された分類に対応する場合、該プロセッサは前記第3セットが該第2の選択された分類に対応する名前付き要素を含むことを決定する請求項4に記載の名前付き要素マーク付け装置。
- 前記プロセッサは前記第2マーク付き文書の前記マーク付けされた名前付き要素に対応する前記情報は、該第2マーク付き文書内の1つ以上のマーク付けされていない名前付き要素を含むことを見つけ、該1つ以上のマーク付けされていない名前付き要素は前記第2セットに含まれず、該プロセッサは前記第3セットが該1つ以上のマーク付けされていない名前付き要素を含むことを決定する請求項4に記載の名前付き要素マーク付け装置。
- 前記プロセッサはマークを有する1つ以上の電子文書から1つ以上のマーク付けされた名前付き要素を取り出して、前記名前付き要素データベースを構築する請求項1に記載の名前付き要素マーク付け装置。
- 前記第2マーク付き文書は複数のマーク付けされた名前付き要素を有し、前記プロセッサは該マーク付けされた名前付き要素間の相関を確立するよう更に構成されている請求項1に記載の名前付き要素マーク付け装置。
- 電子文書と、1つ以上の分類にそれぞれ対応する複数の名前付き要素を含む名前付き要素データベースとを記憶する記憶部と、該記憶部に電気的に接続されたプロセッサとを備える名前付き要素マーク付け装置において適用されるための名前付き要素マーク付け方法であって、
(a)該プロセッサが、該名前付き要素データベース内の第1セットに従って該電子文書にマーク付けして、それぞれが該第1セットに含まれる名前付き要素の1つである複数のマーク付けされた名前付き要素を有する第1マーク付き文書にするのを可能にするステップと、
(b)該プロセッサが、該複数のマーク付けされた名前付き要素に対応する分類から1つ以上の第1の選択された分類を決定し、該1つ以上の第1の選択された分類に従って該名前付き要素データベース内の第2セットを規定するのを可能にするステップと、
(c)該プロセッサが、該第2セットに従って該電子文書に再度マーク付けして第2マーク付き文書にするのを可能にするステップと
を含む名前付き要素マーク付け方法。 - 前記ステップ(b)で、前記プロセッサは、複数の統計値に従って前記1つ以上の第1の選択された分類を決定し、該各統計値は1つの分類に対応するマーク付けされた名前付き要素のそれぞれが前記第1マーク付き文書においてマーク付けされた回数の和である請求項9に記載の名前付き要素マーク付け方法。
- 前記第2セットは、前記名前付き要素データベース内の前記1つ以上の第1の選択された分類に対応する名前付き要素からなる請求項9に記載の名前付き要素マーク付け方法。
- 前記各名前付き要素は情報に更に対応し、前記第2マーク付き文書は複数のマーク付けされた名前付き要素を有し、該第2マーク付き文書の該各マーク付けされた名前付き要素は前記第2セットに含まれる名前付き要素の1つであり、
(d)前記プロセッサが該第2マーク付き文書の該マーク付けされた名前付き要素に対応する該情報に従って前記名前付き要素データベース内の第3セットを決定するのを可能にするステップと、
(e)該プロセッサが該第3セットに従って該第2マーク付き文書にマーク付けして第3マーク付き文書にするのを可能にするステップと
を更に含む請求項9に記載の名前付き要素マーク付け方法。 - 前記ステップ(d)は
(d1)前記プロセッサが前記第2マーク付き文書の前記マーク付けされた名前付き要素に対応する前記情報は、該第2マーク付き文書内の1つ以上のマーク付けされていない名前付き要素を含むことを見つけ、該1つ以上のマーク付けされていない名前付き要素が前記第2セットに含まれず、第2の選択された分類に対応する場合、前記第3セットが該第2の選択された分類に対応する名前付き要素を含むことを決定するのを可能にするステップを含む、請求項12に記載の名前付き要素マーク付け方法。 - 前記ステップ(d)は
(d2)前記プロセッサが前記第2マーク付き文書の前記マーク付けされた名前付き要素に対応する前記情報は、該第2マーク付き文書内の1つ以上のマーク付けされておらず前記第2セットに含まれていない名前付き要素を含むことを見つけ、前記第3セットが該1つ以上のマーク付けされていない名前付き要素を含むことを決定するのを可能にするステップを含む、請求項12に記載の名前付き要素マーク付け方法。 - 前記ステップ(a)の前に、前記プロセッサがマークを有する1つ以上の電子文書から1つ以上のマーク付けされた名前付き要素を取り出して、前記名前付き要素データベースを構築するのを可能にするステップを更に含む請求項9に記載の名前付き要素マーク付け方法。
- 前記第2マーク付き文書は複数のマーク付けされた名前付き要素を有し、
(f)前記プロセッサが該マーク付けされた名前付き要素間の相関を確立するのを可能にするステップを更に含む請求項9に記載の名前付き要素マーク付け方法。 - 電子文書と、1つ以上の分類にそれぞれ対応する複数の名前付き要素を含む名前付き要素データベースとを記憶する記憶部と、該記憶部に電気的に接続されたプロセッサとを備える電子装置にロードされた時、名前付き要素マーク付け方法を実行させるためのプログラムを記憶するコンピュータ読出可能な媒体であって、該プログラムは
該プロセッサが、該名前付き要素データベース内の第1セットに従って該電子文書にマーク付けして、それぞれが該第1セットに含まれる名前付き要素の1つである複数のマーク付けされた名前付き要素を有する第1マーク付き文書にするのを可能にするためのコードAと、
該プロセッサが、該複数のマーク付けされた名前付き要素に対応する分類から1つ以上の第1の選択された分類を決定し、該1つ以上の第1の選択された分類に従って該名前付き要素データベース内の第2セットを規定するのを可能にするためのコードBと、
該プロセッサが、該第2セットに従って該電子文書に再度マーク付けして第2マーク付き文書にするのを可能にするためのコードCと
を含む、コンピュータ読出可能な媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW099111577 | 2010-04-14 | ||
TW099111577A TWI396983B (zh) | 2010-04-14 | 2010-04-14 | 名詞標記裝置、名詞標記方法及其電腦程式產品 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011221978A JP2011221978A (ja) | 2011-11-04 |
JP5020352B2 true JP5020352B2 (ja) | 2012-09-05 |
Family
ID=44788990
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010132907A Active JP5020352B2 (ja) | 2010-04-14 | 2010-06-10 | 名前付き要素マーク付け装置、名前付き要素マーク付け方法及びそのコンピュータ読出可能な媒体 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8244732B2 (ja) |
JP (1) | JP5020352B2 (ja) |
KR (1) | KR101145979B1 (ja) |
TW (1) | TWI396983B (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140012859A1 (en) * | 2012-07-03 | 2014-01-09 | AGOGO Amalgamated, Inc. | Personalized dynamic content delivery system |
US10552539B2 (en) * | 2015-12-17 | 2020-02-04 | Sap Se | Dynamic highlighting of text in electronic documents |
TWI595367B (zh) * | 2016-10-24 | 2017-08-11 | 洪信傑 | 網路資訊分析方法及採用此方法之網路資訊分析系統 |
CN109165388B (zh) * | 2018-09-28 | 2022-06-21 | 郭派 | 一种构建英语多义词释义语义树的方法和系统 |
CN112101026B (zh) * | 2019-06-18 | 2024-05-31 | 掌阅科技股份有限公司 | 语料样本集合的构建方法、计算设备及计算机存储介质 |
US11907678B2 (en) | 2020-11-10 | 2024-02-20 | International Business Machines Corporation | Context-aware machine language identification |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5963940A (en) * | 1995-08-16 | 1999-10-05 | Syracuse University | Natural language information retrieval system and method |
AU2001264928A1 (en) * | 2000-05-25 | 2001-12-03 | Kanisa Inc. | System and method for automatically classifying text |
US6892204B2 (en) * | 2001-04-16 | 2005-05-10 | Science Applications International Corporation | Spatially integrated relational database model with dynamic segmentation (SIR-DBMS) |
CA2475319A1 (en) * | 2002-02-04 | 2003-08-14 | Cataphora, Inc. | A method and apparatus to visually present discussions for data mining purposes |
US7269544B2 (en) * | 2003-05-20 | 2007-09-11 | Hewlett-Packard Development Company, L.P. | System and method for identifying special word usage in a document |
WO2005029353A1 (ja) | 2003-09-18 | 2005-03-31 | Fujitsu Limited | 注釈管理システム、注釈管理方法、文書変換サーバ、文書変換プログラム、電子文書付加プログラム |
TWI225994B (en) * | 2003-12-16 | 2005-01-01 | Inst Information Industry | System, method and machine-readable storage medium for automated sentence annotation |
US20080072134A1 (en) * | 2006-09-19 | 2008-03-20 | Sreeram Viswanath Balakrishnan | Annotating token sequences within documents |
CN101192220B (zh) * | 2006-11-21 | 2010-09-15 | 财团法人资讯工业策进会 | 适用于资源搜寻的标签建构方法及系统 |
JP2008217157A (ja) * | 2007-02-28 | 2008-09-18 | Nippon Telegr & Teleph Corp <Ntt> | 操作履歴を利用した自動情報整理装置、方法、およびプログラム |
US8374844B2 (en) * | 2007-06-22 | 2013-02-12 | Xerox Corporation | Hybrid system for named entity resolution |
JP2009217741A (ja) * | 2008-03-12 | 2009-09-24 | Fujifilm Corp | メタデータ付与方法及び装置、並びにメタデータ付与プログラム |
US8275608B2 (en) * | 2008-07-03 | 2012-09-25 | Xerox Corporation | Clique based clustering for named entity recognition system |
-
2010
- 2010-04-14 TW TW099111577A patent/TWI396983B/zh active
- 2010-05-26 US US12/788,119 patent/US8244732B2/en not_active Expired - Fee Related
- 2010-06-10 JP JP2010132907A patent/JP5020352B2/ja active Active
- 2010-06-14 KR KR1020100056181A patent/KR101145979B1/ko active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
TWI396983B (zh) | 2013-05-21 |
US20110258194A1 (en) | 2011-10-20 |
KR101145979B1 (ko) | 2012-05-15 |
JP2011221978A (ja) | 2011-11-04 |
KR20110115061A (ko) | 2011-10-20 |
US8244732B2 (en) | 2012-08-14 |
TW201135479A (en) | 2011-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019153607A1 (zh) | 智能应答方法、电子装置及存储介质 | |
WO2019227584A1 (zh) | 简历数据信息解析处理方法、装置、设备及存储介质 | |
TWI536181B (zh) | 在多語文本中的語言識別 | |
US8972413B2 (en) | System and method for matching comment data to text data | |
CA2774278C (en) | Methods and systems for extracting keyphrases from natural text for search engine indexing | |
US8868556B2 (en) | Method and device for tagging a document | |
JP5020352B2 (ja) | 名前付き要素マーク付け装置、名前付き要素マーク付け方法及びそのコンピュータ読出可能な媒体 | |
US10417267B2 (en) | Information processing terminal and method, and information management apparatus and method | |
JP2020126493A (ja) | 対訳処理方法および対訳処理プログラム | |
CN101887414A (zh) | 对包含图像符号的文本消息传达的评价自动打分的服务器 | |
CN108319583B (zh) | 从中文语料库提取知识的方法与系统 | |
WO2011091442A1 (en) | System and method for optimizing search objects submitted to a data resource | |
JPWO2008126862A1 (ja) | 情報提供システム | |
CN111199151A (zh) | 数据处理方法、及数据处理装置 | |
JP6409071B2 (ja) | 文の並び替え方法および計算機 | |
JP2010250439A (ja) | 検索システム、データ生成方法、プログラムおよびプログラムを記録した記録媒体 | |
JP2020067987A (ja) | 要約作成装置、要約作成方法、及びプログラム | |
CN112527954A (zh) | 非结构化数据全文搜索方法、系统及计算机设备 | |
WO2010103916A1 (ja) | 文書の特徴語提示装置及び特徴語の優先度付与プログラム | |
KR101351555B1 (ko) | 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템 | |
JP7122773B2 (ja) | 辞書構築装置、辞書の生産方法、およびプログラム | |
JP2014191777A (ja) | 語義解析装置、及びプログラム | |
JP4799677B2 (ja) | 出願文書情報作成装置、出願文書情報作成方法、及びプログラム | |
Cummings et al. | The Holinshed Project: Comparing and linking two editions of Holinshed's Chronicle | |
JP4579281B2 (ja) | 出願文書情報作成装置、出願文書情報作成方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120528 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120605 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120612 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5020352 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150622 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |