CN103049434A - 一种变形词证认系统及证认方法 - Google Patents

一种变形词证认系统及证认方法 Download PDF

Info

Publication number
CN103049434A
CN103049434A CN2012105378031A CN201210537803A CN103049434A CN 103049434 A CN103049434 A CN 103049434A CN 2012105378031 A CN2012105378031 A CN 2012105378031A CN 201210537803 A CN201210537803 A CN 201210537803A CN 103049434 A CN103049434 A CN 103049434A
Authority
CN
China
Prior art keywords
word
deformed
words
module
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012105378031A
Other languages
English (en)
Other versions
CN103049434B (zh
Inventor
张作职
宋传宝
王树强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Haina Media Big Data Technology Development Co Ltd
Original Assignee
BEIJING HYLANDA SOFTWARE TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING HYLANDA SOFTWARE TECHNOLOGY Co Ltd filed Critical BEIJING HYLANDA SOFTWARE TECHNOLOGY Co Ltd
Priority to CN201210537803.1A priority Critical patent/CN103049434B/zh
Publication of CN103049434A publication Critical patent/CN103049434A/zh
Application granted granted Critical
Publication of CN103049434B publication Critical patent/CN103049434B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种变形词证认系统及证认方法。在该变形词证认系统中,由原形词提供模块提供原形词,变形词生成模块在变形词库中查找原形词的变形词,将变形词提供给变形词检测模块,证认模块通过概念库的支持,检测待检测数据的语义背景与原形词概念集合的相似程度,变形词判别模块通过相似度值与预先设定的判别阈值比较,得出所检测的变形词是否为原形词的变形词的结论。本发明能够对常见词的各种变形词进行机器自动检测。在变形词证认的过程中,通过检测与证认的有机结合,对变形词的信度进行了有语义依据的评估,从而使变形词的判别结论有效可信。

Description

一种变形词证认系统及证认方法
技术领域
本发明涉及一种对变形词进行检测证认的系统,同时也涉及该系统实现变形词检测证认的方法,属于计算机自然语言处理技术领域。
背景技术
随着互联网的推广普及,现实生活中开始出现越来越多的网络语言。网络语言的一个显著特点在于变形词特别多,例如用“886”表示“再见”,“3Q”表示“谢谢”,“童鞋”表示“同学”等等。另一方面,有些作者为了规避机器自动检测,故意选用错字、别字、同音字等变形词替换原形词。这些变形词的出现给计算机自然语言处理带来了巨大的技术挑战,需要研发出专门的变形词检测技术加以解决。
目前,现有的变形词检测技术大多基于变形词库实现,主要在变形词检测的技术实现上有所不同,例如有的变形词检测技术是在分离变形词部分后与原形词进行匹配。在申请号为98105507.9的中国专利申请中,公开了一种不连续短语的匹配翻译装置和方法。该装置包括:一个句子获取装置,从一篇文章或文章片断的指定的位置获取一个句子;变形词辨析装置,根据变形词取得其原形;短语辨析装置,将有关的短语信息位置取出并送到短语索引装置中;短语索引装置,根据短语辨析装置的输入,将涉及有关单词的短语全部取出进行匹配;以及语法规则快速确认装置,根据相关的语法规则,判断所识别出的语言成分是否符合语法规则。
另外,在申请号为200810224894.7的中国专利申请中,也公开了一种敏感词校对的方法及系统。该方法包括如下步骤:通过组成敏感词的字的内码,及内码和字的拼音字母组成信息的对应关系,确定敏感词拼音字母组成信息;从被校对文本中获取被校对词,通过组成被校对词的汉字内码,及内码和字的拼音字母组成信息的对应关系,确定被校对词拼音字母组成信息;若被校对词与敏感词,彼此之间的拼音字母组成信息相同,则确定被校对词为敏感词,因此通过语音校对,使得敏感词的变形词可以被校对出来,提高了敏感词的校对准确率。
发明内容
本发明所要解决的技术问题在于提供一种变形词证认系统及证认方法。该技术方案将变形词的检测与证认有机结合,从而使变形词判别结论有语义依据。
为实现上述的发明目的,本发明采用下述的技术方案:
一种变形词证认系统,包括原形词提供模块、变形词生成模块、变形词库、变形词检测模块、证认模块、概念库及变形词判别模块;其中,
所述原形词提供模块与所述变形词生成模块连接,所述变形词生成模块分别连接所述变形词库和所述变形词检测模块,所述证认模块分别与所述变形词检测模块、所述变形词判别模块和所述概念库进行连接;
所述原形词提供模块提供原形词,所述变形词生成模块在所述变形词库中查找所述原形词的变形词,将所述变形词提供给所述变形词检测模块,所述证认模块通过所述概念库的支持,检测待检测数据的语义背景与原形词概念集合的相似程度,所述变形词判别模块通过所述相似度值与预先设定的判别阈值比较,得出所检测的变形词是否为所述原形词的变形词的结论。
其中较优地,所述变形词证认系统中还包括数据提供模块,所述数据提供模块分别与所述变形词检测模块和所述证认模块进行连接。
其中较优地,所述变形词库中以原形词为主键,记录所述原形词的变形词;所述变形词包括但不限于汉语拼音、同音词、拼音首字母词、易混词、拆字变形词、英语同音词。
其中较优地,所述概念库是以原形词为节点的无向图,在节点之间以边相连,每条边表示两个节点的原形词属于相同的概念集合。
其中较优地,所述概念集合是与原形词节点相连的一级节点的集合。
一种变形词证认方法,包括如下步骤:
首先通过原形词,在变形词库查询其对应的变形词;
在得到原形词及变形词后,在待检测数据中做匹配运算,如果得到对应的变形词则继续,否则退出变形词证认;
如果待检测数据中存在变形词,将变形词前后一定范围内的文本数据作为语义背景;
通过原形词在概念库中查找与所述原形词相关的概念集合,计算所述概念集合与所述语义背景间的相似性,利用相似性度量变形词是所述原形词的变形词的信度值;
通过预先设定的判别阈值与所述信度值进行比较,得出变形词是不是所述原形词的变形词的结论。
其中较优地,在查询变形词的过程中,通过指定变形词类别作为过滤条件,得到所述原形词的不同形式的变形词。
本发明所提供的变形词证认系统及证认方法能够对常见词的各种变形词进行机器自动检测。在变形词证认的过程中,通过检测与证认的有机结合,对变形词的信度进行了有语义依据的评估,从而使变形词的判别结论有效可信。
附图说明
图1是本发明所提供的变形词证认系统的整体结构示意图;
图2是本变形词证认系统中,变形词库的表结构示意图;
图3是本变形词证认系统中,概念库中节点的连接关系示意图。
具体实施方式
本发明所提供的变形词证认系统的一个技术特点是指定原形词,根据变形词库的变形词形与文本数据进行匹配。如图1所示,该变形词证认系统由原形词提供模块、变形词生成模块、变形词库、变形词检测模块和数据提供模块、证认模块、概念库及变形词判别模块组成。其中,原形词提供模块确定原形词的词形。它与变形词生成模块连接,向其提供原形词。变形词生成模块在变形词库中查找原形词的不同形式的变形词,例如汉语拼音词、同音词、拼音首字母词、易混词、拆字变形词、常见英语同音词等,并将这些变形词提供给变形词检测模块。数据提供模块分别与变形词检测模块和证认模块进行连接,向它们提供待检测的数据。这里的待检测数据通常是一段文本数据。变形词检测模块用于实现对文本数据的词语检测,检测范围包括原形词本身及其变形词形式。证认模块分别与变形词检测模块、变形词判别模块和概念库进行连接,用于通过概念库的支持,检测文本数据的语义背景与原形词概念集合的相似程度。变形词判别模块通过上述的相似度值与预先设定的判别阈值比较,得出所检测的变形词是否为指定原形词的变形词的结论。
在变形词的实现上,本发明首先提供需要检测变形词的原形词。具体地说,由原形词提供模块提供原形词的词形,指定对哪个词形进行变形词检测及证认。
如图2所示,变形词库中以原形词为主键,记录原形词的不同形式的变形词,如汉语拼音、同音词、拼音首字母词、易混词、拆字变形词、常见英语同音词等变形词。这些变形词可以在原形词的基础上,利用常见变形词的组词规律,由计算机自动生成。通过变形词库的支持,可以查询原形词存储在变形词库中的变形词形式。变形词生成模块通过已知的原形词及变形词组词规律,在变形词库中查询出所有的变形词形式。在查询结果的筛选上,通过变形词生成模块可以控制查询返回的变形词类别。
本发明中的概念库是一个知识网络,是以原形词为节点的无向图。在节点之间以边相连。每条边表示两个节点的原形词属于相同的概念集合。例如某个原形词是“电脑”,它与另一个原形词“计算机”是同义词,因此用一条边相连,表示两者属于同一概念集合。在本发明中,概念集合是与原形词节点相连的一级节点的集合。图3显示了概念库中原形词节点之间形成的概念集合表达方式。在变形词证认的过程中,本发明利用概念库的支持,将每个原形词的概念集合存储在概念库中。当检测到原形词某种形式的变形词时,将变形词出现位置前后一段文本作为语义背景,计算此语义背景与原形词的概念集合的相似度,以此来度量证认的信度。
证认是指经过观察检验而确认某事物的存在,或证明它是本事物不是其他事物。本发明中的证认模块首先进行概念集合的检测,得到原形词的概念集合;同时在输入的待检测数据中查询概念集合的覆盖程度(即相似度)。变形词判别模块通过证认模块得到的概念集合的覆盖程度与预先设定的判别阈值进行比较,可以得出变形词是否是指定原形词的变形词的结论。
基于图1所示的变形词证认系统,本发明所提供的变形词证认方法是这样的:首先通过得到的原形词,在变形词库查询其对应的变形词,同时可以通过指定变形词类别作为过滤条件,得到原形词的不同形式的变形词。变形词检测模块得到变形词形及原形词后,在文本数据中做匹配运算。如果得到对应的变形词则继续,否则退出变形词证认。如果待检测数据中存在变形词,将变形词前后一定范围内的文本数据作为语义背景,进入证认模块。证认模块通过原形词在概念库中查找与其相关的概念集合。得到概念集合后,计算概念集合与语义背景间的相似性。这个相似性度量了此变形词是原形词的变形词的信度值。在证认的最后阶段,通过预先设定的判别阈值与上述步骤得到的信度值进行比较,得出变形词是不是原形词的变形词的结论。例如通过相似性度量得出某变形词是某原形词的变形词的信度值是0.7,如果将预先设定的判别阈值设定为0.8,则得出该变形词不是原形词的变形词的结论;如果将预先设定的判别阈值设定为0.6,则得出该变形词是原形词的变形词的结论。
在上述变形词证认方法中,文本之间的相似度计算可以采用基于统计的文本相似度量方法,例如先采用TF-IDF方法将文本表示为词频向量,然后利用余弦计算文本之间的相似度;也可以查用基于语义分析的文本相似度量方法,基于知识库构建词语之间的语义关系。对于后者,可以参阅李素建的论文《基于语义计算的语句相关度研究》(刊载于《计算机工程与应用》2002年07期),在此就不详细说明了。
本发明所提供的变形词证认系统及证认方法可以解决文本中常见的变形词无法识别的问题,对常见词的各种变形词能够实现机器自动检测。在变形词证认的过程中,通过检测与证认的有机结合,对变形词的信度进行了有语义依据的评估,从而使变形词的判别结论有效可信。
以上对本发明所提供的变形词证认系统及证认方法进行了详细的说明。对本领域的一般技术人员而言,在不背离本发明实质精神的前提下对它所做的任何显而易见的改动,都将构成对本发明专利权的侵犯,将承担相应的法律责任。

Claims (7)

1.一种变形词证认系统,其特征在于:
所述变形词证认系统包括原形词提供模块、变形词生成模块、变形词库、变形词检测模块、证认模块、概念库及变形词判别模块;其中,
所述原形词提供模块与所述变形词生成模块连接,所述变形词生成模块分别连接所述变形词库和所述变形词检测模块,所述证认模块分别与所述变形词检测模块、所述变形词判别模块和所述概念库进行连接;
所述原形词提供模块提供原形词,所述变形词生成模块在所述变形词库中查找所述原形词的变形词,将所述变形词提供给所述变形词检测模块,所述证认模块通过所述概念库的支持,检测待检测数据的语义背景与原形词概念集合的相似程度,所述变形词判别模块通过所述相似度值与预先设定的判别阈值比较,得出所检测的变形词是否为所述原形词的变形词的结论。
2.如权利要求1所述的变形词证认系统,其特征在于:
所述变形词证认系统中还包括数据提供模块,所述数据提供模块分别与所述变形词检测模块和所述证认模块进行连接。
3.如权利要求1所述的变形词证认系统,其特征在于:
所述变形词库中以原形词为主键,记录所述原形词的变形词;所述变形词包括但不限于汉语拼音、同音词、拼音首字母词、易混词、拆字变形词、英语同音词。
4.如权利要求1所述的变形词证认系统,其特征在于:
所述概念库是以原形词为节点的无向图,在节点之间以边相连,每条边表示两个节点的原形词属于相同的概念集合。
5.如权利要求4所述的变形词证认系统,其特征在于:
所述概念集合是与原形词节点相连的一级节点的集合。
6.一种变形词证认方法,基于权利要求1所述的变形词证认系统实现,其特征在于:
首先通过原形词,在变形词库查询其对应的变形词;
在得到原形词及变形词后,在待检测数据中做匹配运算,如果得到对应的变形词则继续,否则退出变形词证认;
如果待检测数据中存在变形词,将变形词前后一定范围内的文本数据作为语义背景;
通过原形词在概念库中查找与所述原形词相关的概念集合,计算所述概念集合与所述语义背景间的相似性,利用相似性度量变形词是所述原形词的变形词的信度值;
通过预先设定的判别阈值与所述信度值进行比较,得出变形词是不是所述原形词的变形词的结论。
7.如权利要求6所述的变形词证认方法,其特征在于:
在查询变形词的过程中,通过指定变形词类别作为过滤条件,得到所述原形词的不同形式的变形词。
CN201210537803.1A 2012-12-12 2012-12-12 一种变形词证认系统及证认方法 Active CN103049434B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210537803.1A CN103049434B (zh) 2012-12-12 2012-12-12 一种变形词证认系统及证认方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210537803.1A CN103049434B (zh) 2012-12-12 2012-12-12 一种变形词证认系统及证认方法

Publications (2)

Publication Number Publication Date
CN103049434A true CN103049434A (zh) 2013-04-17
CN103049434B CN103049434B (zh) 2016-08-17

Family

ID=48062078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210537803.1A Active CN103049434B (zh) 2012-12-12 2012-12-12 一种变形词证认系统及证认方法

Country Status (1)

Country Link
CN (1) CN103049434B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615588A (zh) * 2014-12-25 2015-05-13 上海科阅信息技术有限公司 一种计算机校验汉语同音错别字的方法
CN112001170A (zh) * 2020-05-29 2020-11-27 中国人民大学 一种识别经过变形的敏感词的方法和系统
CN112700764A (zh) * 2021-03-19 2021-04-23 北京沃丰时代数据科技有限公司 热词语音识别方法、装置、电子设备及存储介质
CN117312864A (zh) * 2023-11-30 2023-12-29 国家计算机网络与信息安全管理中心 基于多模态信息的变形词生成模型的训练方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1228566A (zh) * 1998-03-11 1999-09-15 英业达股份有限公司 不连续短语的匹配翻译装置和方法
US20040236566A1 (en) * 2003-05-20 2004-11-25 Simske Steven J. System and method for identifying special word usage in a document
US20060143564A1 (en) * 2000-12-29 2006-06-29 International Business Machines Corporation Automated spell analysis
CN101727440A (zh) * 2008-10-24 2010-06-09 北大方正集团有限公司 一种敏感词校对的方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1228566A (zh) * 1998-03-11 1999-09-15 英业达股份有限公司 不连续短语的匹配翻译装置和方法
US20060143564A1 (en) * 2000-12-29 2006-06-29 International Business Machines Corporation Automated spell analysis
US20040236566A1 (en) * 2003-05-20 2004-11-25 Simske Steven J. System and method for identifying special word usage in a document
CN101727440A (zh) * 2008-10-24 2010-06-09 北大方正集团有限公司 一种敏感词校对的方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
于歌: "搜索引擎中自动分类关键技术研究", 《中国优秀硕士论文全文数据库》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615588A (zh) * 2014-12-25 2015-05-13 上海科阅信息技术有限公司 一种计算机校验汉语同音错别字的方法
CN104615588B (zh) * 2014-12-25 2019-06-28 上海科阅信息技术有限公司 一种计算机校验汉语同音错别字的方法
CN112001170A (zh) * 2020-05-29 2020-11-27 中国人民大学 一种识别经过变形的敏感词的方法和系统
CN112001170B (zh) * 2020-05-29 2023-05-09 中国人民大学 一种识别经过变形的敏感词的方法和系统
CN112700764A (zh) * 2021-03-19 2021-04-23 北京沃丰时代数据科技有限公司 热词语音识别方法、装置、电子设备及存储介质
CN117312864A (zh) * 2023-11-30 2023-12-29 国家计算机网络与信息安全管理中心 基于多模态信息的变形词生成模型的训练方法及装置

Also Published As

Publication number Publication date
CN103049434B (zh) 2016-08-17

Similar Documents

Publication Publication Date Title
JP5144940B2 (ja) 目次抽出におけるロバスト性向上
RU2474870C1 (ru) Способ автоматизированного анализа текстовых документов
RU2491622C1 (ru) Способ классификации документов по категориям
Yerra et al. A sentence-based copy detection approach for web documents
CN104850574A (zh) 一种面向文本信息的敏感词过滤方法
CN102662937A (zh) 自动翻译系统及其自动翻译方法
CN103049434B (zh) 一种变形词证认系统及证认方法
Wibowo et al. Comparison between fingerprint and winnowing algorithm to detect plagiarism fraud on Bahasa Indonesia documents
CN105164676A (zh) 查询特征和问题
CN111985244A (zh) 一种针对文档内容的洗稿检测方法及装置
Karimzadeh Performance evaluation measures for toponym resolution
KR100788440B1 (ko) 도용 패턴에 기반한 복사 감지시스템
CN113901783B (zh) 面向领域的文档查重方法及系统
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
CN107871078A (zh) 非结构化文本中提取漏洞信息的方法
JP2011008784A (ja) ローマ字変換を用いる日本語自動推薦システムおよび方法
CN113642327A (zh) 一种标准知识库的构建方法及装置
JP2003281165A (ja) 文書要約方法及びシステム
US11640501B2 (en) Method and device for verifying the author of a short message
CN116542246A (zh) 基于关键词质检文本的方法、装置和电子设备
Fenogenova et al. A general method applicable to the search for anglicisms in russian social network texts
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
Zayed et al. Named entity recognition of persons’ names in Arabic tweets
KR20150111587A (ko) 디비피디아를 활용한 uri 스포팅 시스템 및 방법
KR101634681B1 (ko) 검사문서 내 인용구문 탐색 방법 및 프로그램

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: System and method for identifying anagrams

Effective date of registration: 20161128

Granted publication date: 20160817

Pledgee: Beijing technology intellectual property financing Company limited by guarantee

Pledgor: Beijing Hylanda Software Technology Co., Ltd.

Registration number: 2016990001028

PLDC Enforcement, change and cancellation of contracts on pledge of patent right or utility model
PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20180410

Granted publication date: 20160817

Pledgee: Beijing technology intellectual property financing Company limited by guarantee

Pledgor: Beijing Hylanda Software Technology Co., Ltd.

Registration number: 2016990001028

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20180806

Address after: Room 301, No. 19, Standard Office Building, Eco-tech Park, No. 2018 Zhongtian Avenue, Zhongtian Eco-city, Tianjin, 300000 (TG 017)

Patentee after: Tianjin Haina media big data technology development Co. Ltd.

Address before: 100080 Beijing Haidian District West Wudaokou Zijin digital garden 3 building 11 floor 1108 room.

Patentee before: Beijing Hylanda Software Technology Co., Ltd.