JP2007310746A - 文章更新量評価プログラム - Google Patents
文章更新量評価プログラム Download PDFInfo
- Publication number
- JP2007310746A JP2007310746A JP2006140850A JP2006140850A JP2007310746A JP 2007310746 A JP2007310746 A JP 2007310746A JP 2006140850 A JP2006140850 A JP 2006140850A JP 2006140850 A JP2006140850 A JP 2006140850A JP 2007310746 A JP2007310746 A JP 2007310746A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- text
- partial character
- common partial
- common
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
【解決手段】比較するテキストをある閾値以上の長さを有する共通部分文字列と非共通部分文字列とに分類する。共通部分文字列の割合と出現パターンから元のテキストからの編集点数及び文脈編集距離を計算する。共通部分文字列集合に包含される要素数から編集点数が求まり、共通部分文字列の出現順の変化から文脈編集距離が求まる。非共通部分文字列に対しては新規創作率の計算とN-gramによる分析を行う。非共通部分文字列集合に包含される要素の合計長から新規創作率が求まり、非共通部分文字列集合と非共通部分文字列集合に包含される要素間の非部分一致率から新規創作分新規度が求まる。共通部分文字列集合と非共通部分文字列集合での計算結果を統合し、文章更新量を計算する。
【選択図】図3
Description
前記各非共通部分文字列集合間における前記閾値未満の長さによるNグラムの不一致率である新規創作分新規度DOを求める新規度評価ステップとを実行させる。
前記各非共通部分文字列集合A,B間における前記閾値t未満の長さによるNグラムの不一致率である新規創作分新規度DOを求める新規度評価ステップとを実行させる。
10 文章更新量評価プログラム
Claims (12)
- コンピュータに、比較する更新前後のテキストから任意の閾値以上の長さを有する共通部分文字列を抽出する抽出ステップと、当該共通部分文字列の抽出数から1を減算して編集点数を求めるステップとを実行させるための文章更新量評価プログラム。
- コンピュータに、比較する更新前後のテキストから任意の閾値以上の長さを有する共通部分文字列を抽出する抽出ステップと、当該共通部分文字列を抽出元の前記各テキストにおける出現順を保持した状態で並べて分割列をそれぞれ作成するステップと、各分割列を対比して一の分割列を他の分割列と一致させるために必要な前記共通部分文字列間の最小置換回数を計算して文脈編集距離を求めるステップとを実行させるための文章更新量評価プログラム。
- コンピュータに、比較する更新前後のテキストから任意の閾値以上の長さを有する共通部分文字列を抽出する抽出ステップと、前記テキストから当該共通部分文字列を取り除いた残余の文字列の合計長さが当該テキストの全長に対して占める割合を計算して新規創作率を求めるステップとを実行させるための文章更新量評価プログラム。
- コンピュータに、比較する更新前後のテキストから任意の閾値以上の長さを有する共通部分文字列を抽出する抽出ステップと、前記各テキストから当該共通部分文字列を取り除いた残余の文字列をそれぞれ集めて非共通部分文字列集合を作成するステップと、数式1で表される
前記各非共通部分文字列集合間における前記閾値未満の長さによるNグラムの不一致率である新規創作分新規度DOを求める新規度評価ステップとを実行させるための文章更新量評価プログラム。 - 前記共通要素数は、前記更新前後のテキストから作成された前記各非共通部分文字列集合にそれぞれ対応する第1の文字列と第2の文字列とを終端記号で連結し、当該連結後の連結文字列に対して接尾辞配列を生成して高さ配列計算をすると共に、前記接尾辞配列作成時に接尾辞のインデックスの数値と、前記連結文字列の前方となる前記第1の文字列の文字列長との比較を行い、接尾辞の開始部分が前記第1の文字列から始まるグループと、接尾辞の開始部分が前記第2の文字列から始まるグループとに分類し、隣接する接尾辞配列が別のグループかつ所定のN値以上の高さを持つ位置に対応する隣接接尾辞配列間で前方一致する部分文字列の出現回数を数え上げることにより求められるものであることを特徴とする請求項4に記載の文章更新量評価プログラム。
- コンピュータに、前記請求項1〜5の各ステップにより求められた編集点数と文脈編集距離と新規創作率と新規創作分新規度とを用いて、
評価式:a・EP+b・CED+NCP・DO・L
(EPは編集点数,CEDは文脈編集距離,NCPは新規創作率,DOは新規創作分新規度,Lは更新後のテキストの全長,a及びbは任意の係数)
により文章更新量を算出するステップを実行させるための文章更新量評価プログラム。 - コンピュータに、比較する更新前後のテキストから任意の閾値以上の長さを有する共通部分文字列を抽出する抽出ステップと、当該共通部分文字列の抽出数から1を減算して編集点数を求めるステップと、前記編集点数の大小関係から各テキストの更新順序を決定するステップとを実行させるための文章更新量評価プログラム。
- コンピュータに、比較する更新前後のテキストから任意の閾値以上の長さを有する共通部分文字列を抽出する抽出ステップと、当該共通部分文字列を抽出元の前記各テキストにおける出現順を保持した状態で並べて分割列をそれぞれ作成するステップと、各分割列を対比して一の分割列を他の分割列と一致させるために必要な前記共通部分文字列間の最小置換回数を計算して文脈編集距離を求めるステップと、前記文脈編集距離の大小関係から各テキストの更新順序を決定するステップとを実行させるための文章更新量評価プログラム。
- 前記抽出ステップは、前記更新前後の各テキストにそれぞれ対応する第1の文字列と第2の文字列とを終端記号で連結し、当該連結後の連結文字列に対して接尾辞配列を生成して高さ配列計算をすると共に、前記接尾辞配列作成時に接尾辞のインデックスの数値と、前記連結文字列の前方となる前記第1の文字列の文字列長との比較を行い、接尾辞の開始部分が前記第1の文字列から始まるグループと、接尾辞の開始部分が前記第2の文字列から始まるグループとに分類し、隣接する接尾辞配列が別のグループかつ最大の高さを持つ位置に対応する隣接接尾辞配列間で前方一致する文字列を最長共通部分文字列として前記テキストから抽出し、残余の文字列から前記最長共通部分文字列の長さが前記閾値以下となるまで最長共通部分文字列の抽出を繰り返すものであることを特徴とする請求項1〜8のいずれか1つに記載の文章更新量評価プログラム。
- 前記抽出ステップは、前記共通部分文字列を抽出する際にそれぞれ別の特殊文字に置換するものであることを特徴とする請求項1〜9のいずれか1つに記載の文章更新量評価プログラム。
- 前記抽出ステップは、前記各テキストを対比して作成されたドットマトリックス上にプロットされたドットにおける前記ドットマトリックスの中心からのオフセットが、前記閾値以上の回数にわたって連続で一定の値として出現する箇所に対応する文字列を共通部分文字列として前記テキストから抽出するものであることを特徴とする請求項1〜8のいずれか1つに記載の文章更新量評価プログラム。
- コンピュータに、比較する更新前後のテキストから任意の閾値以上の長さを有する共通部分文字列を抽出する抽出ステップと、当該共通部分文字列を抽出元の前記各テキストにおける出現順を保持した状態で並べて分割列をそれぞれ作成するステップと、前記各テキストから作成された前記各分割列を対比して、前記各分割列に含まれる前記共通部分文字列単位の一致における共通部分文字列を構成する各文字をドットとしてプロットすることにより作成されたドットマトリックスを表示させるステップとを実行させるための文章更新量評価プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006140850A JP4872079B2 (ja) | 2006-05-19 | 2006-05-19 | 文章更新量評価プログラム |
US12/301,224 US8244046B2 (en) | 2006-05-19 | 2007-05-18 | Character string updated degree evaluation program |
PCT/JP2007/060240 WO2007135996A1 (ja) | 2006-05-19 | 2007-05-18 | 文字列更新量評価プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006140850A JP4872079B2 (ja) | 2006-05-19 | 2006-05-19 | 文章更新量評価プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007310746A true JP2007310746A (ja) | 2007-11-29 |
JP4872079B2 JP4872079B2 (ja) | 2012-02-08 |
Family
ID=38723307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006140850A Active JP4872079B2 (ja) | 2006-05-19 | 2006-05-19 | 文章更新量評価プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8244046B2 (ja) |
JP (1) | JP4872079B2 (ja) |
WO (1) | WO2007135996A1 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011090524A (ja) * | 2009-10-22 | 2011-05-06 | Dainippon Hourei Printing Co Ltd | 書籍掲載文書の差異検出表示システムおよび書籍掲載文書の差異検出表示プログラム |
JP2012128600A (ja) * | 2010-12-14 | 2012-07-05 | Hitachi Ltd | 文書検索装置、文書検索方法及び文書検索プログラム |
JPWO2017056982A1 (ja) * | 2015-09-30 | 2018-07-19 | ヤマハ株式会社 | 楽曲検索方法および楽曲検索装置 |
JP6506489B1 (ja) * | 2018-07-31 | 2019-04-24 | 株式会社AI Samurai | 特許評価判定方法、特許評価判定装置、および特許評価判定プログラム |
JP2020021455A (ja) * | 2019-03-28 | 2020-02-06 | 株式会社AI Samurai | 特許評価判定方法、特許評価判定装置、および特許評価判定プログラム |
CN113326406A (zh) * | 2021-05-21 | 2021-08-31 | 翱捷科技股份有限公司 | 一种lvgl上的多语种切换方法及装置 |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7030863B2 (en) * | 2000-05-26 | 2006-04-18 | America Online, Incorporated | Virtual keyboard system with automatic correction |
US7286115B2 (en) | 2000-05-26 | 2007-10-23 | Tegic Communications, Inc. | Directional input system with automatic correction |
US7821503B2 (en) | 2003-04-09 | 2010-10-26 | Tegic Communications, Inc. | Touch screen and graphical user interface |
US7750891B2 (en) * | 2003-04-09 | 2010-07-06 | Tegic Communications, Inc. | Selective input system based on tracking of motion parameters of an input device |
US8225203B2 (en) | 2007-02-01 | 2012-07-17 | Nuance Communications, Inc. | Spell-check for a keyboard system with automatic correction |
US8201087B2 (en) * | 2007-02-01 | 2012-06-12 | Tegic Communications, Inc. | Spell-check for a keyboard system with automatic correction |
GB0922608D0 (en) | 2009-12-23 | 2010-02-10 | Vratskides Alexios | Message optimization |
US20120254333A1 (en) * | 2010-01-07 | 2012-10-04 | Rajarathnam Chandramouli | Automated detection of deception in short and multilingual electronic messages |
US8886664B2 (en) * | 2010-05-13 | 2014-11-11 | Microsoft Corporation | Decreasing duplicates and loops in an activity record |
CN102455997A (zh) * | 2010-10-27 | 2012-05-16 | 鸿富锦精密工业(深圳)有限公司 | 元件名称提取系统及方法 |
US8805095B2 (en) * | 2010-12-03 | 2014-08-12 | International Business Machines Corporation | Analysing character strings |
US9535954B2 (en) * | 2011-02-02 | 2017-01-03 | Nec Corporation | Join processing device, data management device, and string similarity join system |
US8725497B2 (en) * | 2011-10-05 | 2014-05-13 | Daniel M. Wang | System and method for detecting and correcting mismatched Chinese character |
US9009025B1 (en) * | 2011-12-27 | 2015-04-14 | Amazon Technologies, Inc. | Context-based utterance recognition |
US10395270B2 (en) | 2012-05-17 | 2019-08-27 | Persado Intellectual Property Limited | System and method for recommending a grammar for a message campaign used by a message optimization system |
US8732183B2 (en) * | 2012-05-29 | 2014-05-20 | Sap Portals Israel Ltd | Comparing strings of characters |
US9747582B2 (en) | 2013-03-12 | 2017-08-29 | Dropbox, Inc. | Implementing a consistent ordering of operations in collaborative editing of shared content items |
US9063949B2 (en) | 2013-03-13 | 2015-06-23 | Dropbox, Inc. | Inferring a sequence of editing operations to facilitate merging versions of a shared document |
US9727544B2 (en) | 2013-05-06 | 2017-08-08 | Dropbox, Inc. | Animating edits to documents |
KR20150144447A (ko) * | 2014-06-16 | 2015-12-28 | 한국전자통신연구원 | 메시지 수정 방법 및 장치 |
US20170004120A1 (en) * | 2015-06-30 | 2017-01-05 | Facebook, Inc. | Corrections for natural language processing |
US9904672B2 (en) | 2015-06-30 | 2018-02-27 | Facebook, Inc. | Machine-translation based corrections |
CN106372052A (zh) * | 2015-07-22 | 2017-02-01 | 北京国双科技有限公司 | 文本过滤处理方法及装置 |
US10504137B1 (en) | 2015-10-08 | 2019-12-10 | Persado Intellectual Property Limited | System, method, and computer program product for monitoring and responding to the performance of an ad |
US10832283B1 (en) | 2015-12-09 | 2020-11-10 | Persado Intellectual Property Limited | System, method, and computer program for providing an instance of a promotional message to a user based on a predicted emotional response corresponding to user characteristics |
US10402489B2 (en) | 2016-12-21 | 2019-09-03 | Facebook, Inc. | Transliteration of text entry across scripts |
US10810380B2 (en) | 2016-12-21 | 2020-10-20 | Facebook, Inc. | Transliteration using machine translation pipeline |
US10394960B2 (en) | 2016-12-21 | 2019-08-27 | Facebook, Inc. | Transliteration decoding using a tree structure |
US10454497B1 (en) | 2018-10-22 | 2019-10-22 | Dell Products L. P. | Reducing a size of multiple data sets |
CN109902142B (zh) * | 2019-02-27 | 2022-09-16 | 西安电子科技大学 | 一种基于编辑距离的字符串模糊匹配和查询方法 |
JP7456136B2 (ja) * | 2019-12-05 | 2024-03-27 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
US11934402B2 (en) * | 2021-08-06 | 2024-03-19 | Bank Of America Corporation | System and method for generating optimized data queries to improve hardware efficiency and utilization |
CN115687579B (zh) * | 2022-09-22 | 2023-08-01 | 广州视嵘信息技术有限公司 | 文档标签生成及匹配方法、装置和计算机设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08297675A (ja) * | 1995-02-28 | 1996-11-12 | Oki Electric Ind Co Ltd | 翻訳支援装置 |
WO2004034282A1 (ja) * | 2002-10-10 | 2004-04-22 | Fujitsu Limited | コンテンツ再利用管理装置およびコンテンツ再利用支援装置 |
JP2005092707A (ja) * | 2003-09-19 | 2005-04-07 | Seiko Epson Corp | 類似度算出システムおよび類似度算出プログラム、並びに類似度算出方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB1530444A (en) * | 1974-11-11 | 1978-11-01 | Xerox Corp | Automatic writing system and methods of word processing therefor |
US5369577A (en) * | 1991-02-01 | 1994-11-29 | Wang Laboratories, Inc. | Text searching system |
JP2820183B2 (ja) | 1992-08-28 | 1998-11-05 | 日本電気株式会社 | 文字列比較方法 |
US6489902B2 (en) * | 1997-12-02 | 2002-12-03 | Hughes Electronics Corporation | Data compression for use with a communications channel |
JP3344394B2 (ja) * | 1999-12-24 | 2002-11-11 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 配列の変換方法、構造解析方法、装置及び記録媒体 |
US6678680B1 (en) * | 2000-01-06 | 2004-01-13 | Mark Woo | Music search engine |
FR2816157A1 (fr) * | 2000-10-31 | 2002-05-03 | Thomson Multimedia Sa | Procede de traitement de donnees video distinees a etre visualisees sur ecran et dispositif mettant en oeuvre le procede |
WO2005024562A2 (en) * | 2003-08-11 | 2005-03-17 | Eloret Corporation | System and method for pattern recognition in sequential data |
US7277029B2 (en) * | 2005-06-23 | 2007-10-02 | Microsoft Corporation | Using language models to expand wildcards |
-
2006
- 2006-05-19 JP JP2006140850A patent/JP4872079B2/ja active Active
-
2007
- 2007-05-18 US US12/301,224 patent/US8244046B2/en not_active Expired - Fee Related
- 2007-05-18 WO PCT/JP2007/060240 patent/WO2007135996A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08297675A (ja) * | 1995-02-28 | 1996-11-12 | Oki Electric Ind Co Ltd | 翻訳支援装置 |
WO2004034282A1 (ja) * | 2002-10-10 | 2004-04-22 | Fujitsu Limited | コンテンツ再利用管理装置およびコンテンツ再利用支援装置 |
JP2005092707A (ja) * | 2003-09-19 | 2005-04-07 | Seiko Epson Corp | 類似度算出システムおよび類似度算出プログラム、並びに類似度算出方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011090524A (ja) * | 2009-10-22 | 2011-05-06 | Dainippon Hourei Printing Co Ltd | 書籍掲載文書の差異検出表示システムおよび書籍掲載文書の差異検出表示プログラム |
JP2012128600A (ja) * | 2010-12-14 | 2012-07-05 | Hitachi Ltd | 文書検索装置、文書検索方法及び文書検索プログラム |
JPWO2017056982A1 (ja) * | 2015-09-30 | 2018-07-19 | ヤマハ株式会社 | 楽曲検索方法および楽曲検索装置 |
JP6506489B1 (ja) * | 2018-07-31 | 2019-04-24 | 株式会社AI Samurai | 特許評価判定方法、特許評価判定装置、および特許評価判定プログラム |
WO2020026366A1 (ja) * | 2018-07-31 | 2020-02-06 | 株式会社 AI Samurai | 特許評価判定方法、特許評価判定装置、および特許評価判定プログラム |
JP2020021455A (ja) * | 2019-03-28 | 2020-02-06 | 株式会社AI Samurai | 特許評価判定方法、特許評価判定装置、および特許評価判定プログラム |
CN113326406A (zh) * | 2021-05-21 | 2021-08-31 | 翱捷科技股份有限公司 | 一种lvgl上的多语种切换方法及装置 |
CN113326406B (zh) * | 2021-05-21 | 2023-08-01 | 翱捷科技股份有限公司 | 一种lvgl上的多语种切换方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
US8244046B2 (en) | 2012-08-14 |
WO2007135996A1 (ja) | 2007-11-29 |
JP4872079B2 (ja) | 2012-02-08 |
US20090226098A1 (en) | 2009-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4872079B2 (ja) | 文章更新量評価プログラム | |
KR100451978B1 (ko) | 정보 검색 방법과 정보 검색 장치 | |
CN105094368B (zh) | 一种对输入法候选项进行调频排序的控制方法及控制装置 | |
KR101508260B1 (ko) | 문서 특징을 반영하는 요약문 생성 장치 및 방법 | |
CN103927329B (zh) | 一种即时搜索方法和系统 | |
CN103927330A (zh) | 一种在搜索引擎中确定形近字的方法和装置 | |
WO2011087391A1 (en) | Automatic transliteration of a record in a first language to a word in a second language | |
CN111984845B (zh) | 网站错别字识别方法和系统 | |
Arslan | DeASCIIfication approach to handle diacritics in Turkish information retrieval | |
Soleh et al. | A non word error spell checker for Indonesian using morphologically analyzer and HMM | |
CN112597768A (zh) | 文本审核方法、装置、电子设备、存储介质及程序产品 | |
Elkhidir et al. | Plagiarism detection using free-text fingerprint analysis | |
JP5447368B2 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
CN111368547A (zh) | 基于语义解析的实体识别方法、装置、设备和存储介质 | |
JP5206296B2 (ja) | 類似文章抽出プログラム、方法、装置 | |
JP4499003B2 (ja) | 情報処理方法及び装置及びプログラム | |
Ali et al. | Detection of plagiarism in Urdu text documents | |
JP4301496B2 (ja) | データベース検索装置、データベース検索方法およびプログラム | |
JP5990124B2 (ja) | 略語生成装置、略語生成方法、及びプログラム | |
JP2009271819A (ja) | 文書検索システム、文書検索方法および文書検索プログラム | |
JP5506482B2 (ja) | 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム | |
CN109376339B (zh) | 一种基于用户行为的文本转换候选规则信息提取方法 | |
JP4705430B2 (ja) | 距離の概念に基づく言語処理装置 | |
JP2003331214A (ja) | 文字認識誤り訂正方法、装置及びプログラム | |
El-Kahlout et al. | Initial explorations in two-phase Turkish dependency parsing by incorporating constituents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090324 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110801 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110929 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111024 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |