CN104462378B - 用于文本识别的数据处理方法及装置 - Google Patents

用于文本识别的数据处理方法及装置 Download PDF

Info

Publication number
CN104462378B
CN104462378B CN201410751278.2A CN201410751278A CN104462378B CN 104462378 B CN104462378 B CN 104462378B CN 201410751278 A CN201410751278 A CN 201410751278A CN 104462378 B CN104462378 B CN 104462378B
Authority
CN
China
Prior art keywords
word
term vector
target
similarity
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410751278.2A
Other languages
English (en)
Other versions
CN104462378A (zh
Inventor
何鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201410751278.2A priority Critical patent/CN104462378B/zh
Publication of CN104462378A publication Critical patent/CN104462378A/zh
Application granted granted Critical
Publication of CN104462378B publication Critical patent/CN104462378B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于文本识别的数据处理方法及装置,该用于文本识别的数据处理方法包括:获取语料中的目标词;获取语料中的参考词;将目标词转换为词向量,得到目标词向量,将参考词转换为词向量,得到参考词向量;计算目标词向量和参考词向量的相似度;将相似度和预设阈值比较;以及如果相似度不大于预设阈值,则确定目标词是背景噪音词,如果相似度大于预设阈值,则确定目标词不是背景噪音词。通过本发明,解决了现有技术中过滤背景噪音词准确率低的问题,进一步达到了提高过滤背景噪声词准确率的效果。

Description

用于文本识别的数据处理方法及装置
技术领域
本发明涉及自然语言处理领域,具体而言,涉及一种用于文本识别的数据处理方法及装置。
背景技术
为了节省存储空间和提高搜索效率,搜索引擎在索引页面或处理搜索请求时会自动忽略某些字或词,这些字或词即被称为停用词(Stop Words)。通常,停用词大致分为如下两类:一类停用词是指应用广泛、在网络上随处可见的词,比如“Web”一词几乎在每个网站上均会出现,对这样的词搜索引擎无法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围,同时还会降低搜索的效率;另一类停用词是指语气助词、副词、介词、连接词等,通常这些词自身并无明确的意义,只有将其放入一个完整的句子中才有一定作用,如常见的“的”、“在”之类的词。
自然语言处理的各个任务进行之前都会通过去停用词步骤对这些停用词进行过滤。通常,对于特定语言,都有通用的停用词表进行过滤。但是,在特定自然语言处理任务(如主题提取、文本分类)中,除需要过滤停用词外,还需要事先过滤掉背景噪音词。所谓背景噪音词,是指语料自身带来的与主题无关的无意义词串,包括绝对噪音和相对噪音。其中,绝对噪音是指分布稳定,累计出现次数较多的词,如“人民日报讯”、“据新华社电”等;相对噪音是指其本身不是噪音,但是在特定处理的领域集中成为噪音的一些词语,这些词语对特定领域内主题的细分不起作用,如“纠纷”、“原告”等词本身不是噪音,但是在法律判决文书卷宗的语料集中则成为了背景噪音。
背景噪音词与停用词一样,无论是对主题分类还是存储空间还是检索效率而言,背景噪音词的存在都不起任何作用,因此也应当事先予以过滤。但不同于停用词,背景噪音词无法通过人工整理获得。传统的解决方案是通过直接统计语料中每个词的词频并与设置的阈值比较的方式予以过滤,具体包括:首先,对语料中的文本进行分词,去停用词等处理,得到切分词的序列;其次,对切分词进行计数统计,统计每个切分词的词频(出现的次数),记为tf,以及每个切分词的文档频数(出现的文档数),记为df;最后,对tf和df进行简单的统计变换(相乘、除等,也可以不做变换),并设定相应的阈值,若统计值满足阈值的条件,则认为该切分词为背景噪音词,如下公式所示:
其中,word表示切分词,Noise表示背景噪音词,Useful表示有用词,即非背景噪音词,α、β为预设阈值。
上述过滤背景噪音词的方式简单,但是没有考虑背景噪音词的识别质量,此外,该方法缺乏理论依据,容易造成未识别出背景噪音词以及将非背景噪音词错识别成背景噪音这样的两类错误,此外,在实践过程中,统计值阈值的设定往往难以设定。
针对相关技术中过滤背景噪音词准确率低的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种用于文本识别的数据处理方法及装置,以解决现有技术中过滤背景噪音词准确率低的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种用于文本识别的数据处理方法。
根据本发明的用于文本识别的数据过滤方法包括:获取语料中的目标词;获取语料中的参考词;将目标词转换为词向量,得到目标词向量,将参考词转换为词向量,得到参考词向量;计算目标词向量和参考词向量的相似度;将相似度和预设阈值比较;以及如果相似度不大于预设阈值,则确定目标词是背景噪音词,如果相似度大于预设阈值,则确定目标词不是背景噪音词。
进一步地,参考词向量包括多个参考词向量,计算目标词向量与参考词向量的相似度包括:依次计算目标词向量与多个参考词向量中每一个参考词向量的相似度,得到目标词向量与多个参考词向量的相似度集合;以及获取相似度集合中值最大的相似度作为目标词向量与参考词向量的相似度。
进一步地,分布式描述方法将目标词转换为词向量,得到目标词向量,将参考词转换为词向量,得到参考词向量。
进一步地,在获取目标词和参考词之前,方法还包括:将语料中的文本进行分词,得到切分词集合;以及过滤切分词集合中的停用词,其中,从过滤停用词后的切分词集合中获取目标词和参考词。
进一步地,计算目标词向量和参考词向量的相似度包括:计算目标词向量和参考词向量的夹角的余弦值;以及通过余弦值计算目标词向量和参考词向量的相似度。
为了实现上述目的,根据本发明的另一方面,提供了一种用于文本识别的数据处理装置。
该用于文本识别的数据过滤装置包括:第一获取单元,用于获取语料中的目标词;第二获取单元,用于获取语料中的参考词;转换单元,用于将目标词转换为词向量,得到目标词向量,将参考词转换为词向量,得到参考词向量;计算单元,用于计算目标词向量和参考词向量的相似度;比较单元,用于比较相似度和预设阈值;以及确定单元,用于当相似度不大于预设阈值时,则确定目标词是背景噪音词,当相似度大于预设阈值时,则确定目标词不是背景噪音词。
进一步地,参考词向量包括多个参考词向量,计算单元包括:第一计算模块,用于依次计算目标词向量与多个参考词向量中每一个参考词向量的相似度,得到目标词向量与多个参考词向量的相似度集合;以及获取模块,用于获取相似度集合中值最大的相似度作为目标词向量与参考词向量的相似度。
进一步地,转换单元通过分布式描述装置将目标词转换为词向量,得到目标词向量,将参考词转换为词向量,得到参考词向量。
进一步地,装置还包括:分词单元,用于将语料中的文本进行分词,得到切分词集合;以及过滤单元,用于过滤切分词集合中的停用词,其中,从过滤停用词后的切分词集合中获取目标词和参考词。
进一步地,计算单元包括:第二计算模块,用于计算目标词向量和参考词向量的夹角的余弦值;以及第三计算模块,用于通过余弦值计算目标词向量和参考词向量的相似度。
通过本发明,通过计算目标词向量与参考词向量的相似度来确定目标词是否为背景噪音词,从而过滤该目标词,解决了现有技术中过滤背景噪音词准确率低的问题,进而达到了提高过滤背景噪声词准确率的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是文本主题识别中背景噪音词的条件概率分布示意图;
图2是根据本发明实施例的用于文本识别的数据处理方法的流程图;以及
图3是根据本发明实施例的用于文本识别的数据处理装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将主题附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
以下是对本发明涉及的一些术语进行解释:
语料库:在自然语言处理领域,语料库通常是指一个文本集合,语料是语料库的文本。本发明涉及的语料都为特定领域的文本,例如法律文本领域、计算机文本领域等。
背景噪音词:语料自身通常会带有一些与文本主题无关的词,这些词称为背景噪音词,背景噪音词包括绝对噪音词和相对噪音词。绝对噪音词是指在语料中出现次数较多,分布稳定的词,例如,“人民日报讯”、“据新华社电”,这些词在许多文本中都会出现,但是这些词对于文本主题的分类并不起作用。相对噪音词,是指一类词本身不是噪音词,但是在特定的领域中却成为背景噪音词,例如,“纠纷”一词在法律文本相关主题下都较常出现,如“离婚纠纷”、“买卖合同纠纷”、“民间借贷纠纷”等,因此“纠纷”一词对于法律相关领域的文本主题的细分所起作用不大。背景噪音词一方面对于主题的分类所起作用不大,另一方面占用存储空间同时影响检索效率,因此需要对其进行过滤。
主题模型:就是对文字中隐含主题的一种建模方法。其中,主题是一个概念、一个方面,表现为一系列与该主题相关的词语。例如,如果文本中涉及到“百度”这个主题,则“中文搜索”、“李彦宏”等词语出现的频率较高,而如果文本中涉及到“IBM”这个主题,那么“笔记本”等词语出现的频率则较高。用数学语言描述,主题就是词汇表上词语出现的条件概率分布。
在同一主题下的文本中,出现的条件概率较高的词语与该主题具有语义相似性,这些词语更倾向于描述该主题的主旨内容,而出现的条件概率越低的词语则更倾向于是与该主题无关的词语。对于同一个词语,在不同主题下出现的概率分布可以描述该词语描述主题的倾向性。根据上述特点,可以区分出背景噪音词与非背景噪音词的区别,即在不同主题下词语出现的条件概率都处于中间水平的词语为背景噪音词。如图1所示,图1中的每个点都表示一个词语,假设只有两个主题,主题1和主题2,图1右下方的三个点以较高的概率出现在主题1中,但是这三个点出现在主题2中的概率较低,表示这三个点对应的词语对于区分文本是否描述主题1的时候作用较大,即这三个点对应的词与主题1的相关性较大,可以作为检索主题1相关文本的关键词。同样,图1中左上角的三个点以较高的概率出现在主题2中,但是出现在主题1中的概率很低,表示三个点对应的词语对于区分文本是否描述主题2的时候作用较大,即这三个点对应的词与主题2的相关度较大,可以作为检索主题2相关文本的关键词。相反,图1中间部分的四个点在主题1和主题2下出现的概率都处于中间水平,对于区文本是描述主题1还是主题2所起作用很小,即这四个点对应的词语与主题1和主题2的相关度都低,因此这些词语为背景噪音词。
根据本发明的实施例,提供了一种用于文本识别的数据处理方法,图1是根据本发明实施例的用于文本识别的数据处理方法的流程图。
如图1所示,该方法包括如下的步骤S102至步骤S112:
步骤S102:获取语料中的目标词。
步骤S104:获取语料中的参考词。
目标词为语料中待过滤的词,参考词则是语料中除目标词外的其他词。在进行背景噪音词过滤过程中,需要依次对语料中的每个词进行判断是否为背景噪音词,当判断出为背景噪音词时,则过滤该词。因此,语料中的每个词依次作为目标词,此时,语料中除该目标词外的其他词则作为参考词,通过计算该目标词与参考词之间的相似度来判断该目标词是否为背景噪音词。
步骤S106:将目标词转换为词向量,得到目标词向量,将参考词转换为词向量,得到参考词向量。
词向量是指词语的向量表示,最简单的表示方法是稀疏描述法(One-hotRepresentation),该方法将词表中的每个词表示成一个由0和1组成的向量,其中,只有一个维度值为1,其余维度值都为0,向量的维度为词表的大小,词表由所有需要进行向量化词语组成,词语的个数即为词表的大小,例如,一个词表包含10个词语,则该词表的所有词语转换成10维的向量,例如,“话筒”的词向量表示为[0,0,0,0,1,0,0,0,0,0],“麦克”的词向量表示为[0,1,0,0,0,0,0,0,0,0],向量中数值为1的位置对应该词在词表的位置,即“话筒”位于词表中第6个位置,“麦克”位于词表中第2个位置。另一种表示方法为分布式描述方法(Distributed Representation),该方法是一种低维词向量表示方法。例如,一个词表同样包含10个词语时,“话筒”的词向量可以仅通过五维向量进行表示,例如[0.792,-0.177,-0.107,0.109,-0.542],这种方式能够大大减少向量的维数。
本发明实施例通过将语料中包含的所有词作为训练样本,包括目标词和参考词,利用机器训练方法得到上述词对应的词向量。常用的机器训练方法有由google提出的深度学习算法word2vec、神经网络训练算法等。通过上述训练方法可以方便的将目标词和参考词转换成词向量。
步骤S108:计算目标词向量和参考词向量的相似度。
相似度是指两个词之间的相似程度,可以是语义的相似程度,也可以是词法的相似程度,通过上述两个词对应的词向量之间的距离来表示。两个词向量的距离越短,说明该两个词向量对应的词的相似度越大,进一步说明两个词在语义或是词法上更为接近。常用的描述向量距离的方式有欧氏距离、余弦夹角等。
通过计算语料中词语两两之间的相似度,可以将这些词语划分出多个聚类,同一个聚类中的词语两两之间都具有很高的相似度,相反,不同聚类中的词语之间相似度偏低。此处的聚类相当于文本的主题,每个聚类包含的词语都与同一主题具有较高的相关性,这些词都倾向于描述该主题,在该主题下这些词出现的条件概率较高,这些词可以作为检索该主题相关文本的关键词。但是,当一个词与语料中其他词的相似度都不高时,说明该词不倾向于描述任何主题,在任何主题下该词出现的条件概率都较低,则该词即为背景噪音词。
步骤S110:将相似度和预设阈值比较。
步骤S112:如果所述相似度不大于所述预设阈值,则确定所述目标词是背景噪音词,如果所述相似度大于所述预设阈值,则确定所述目标词不是背景噪音词。
相似度能够直观的描述两个词之间的语义相似程度,根据上述描述可知,背景噪音词与语料中其他词的相似度都不高。通过设置一个预设阈值可以区分区背景噪音词。如果相似度不大于预设阈值,说明目标词为背景噪音词,需要对其进行过滤,如果相似度大于预设阈值,则说明目标词为非背景噪音词,则不需要对其进行过滤。
本发明实施例通过将语料中的目标词和参考词转换成词向量,计算目标词向量和参考词向量之间的相似度,并与预设阈值比较来确定目标词是否为需要过滤的背景噪音词,当目标词与参考词的相似度低于预设阈值时则该目标词不倾向于描述语料中文本的主题,因此可以确定该目标词为背景噪音词,需要过滤该目标词。由于两个词的相似度能够很直观的反映出两个词之间的语义相似程度,通过计算目标词与语料中除目标词外的其他词的相似度可以客观的反映出该目标词与语料中文本的主题的相关性,因此,本发明实施例过滤的背景噪音词较为符合实际情况,准确性较高,解决了现有技术中过滤背景噪音词准确率低的问题。
可选地,参考词向量包括多个参考词向量,计算目标词向量与参考词向量的相似度包括:依次计算目标词向量与多个参考词向量中每一个参考词向量的相似度,得到目标词向量与多个参考词向量的相似度集合;以及获取相似度集合中值最大的相似度作为目标词向量与参考词向量的相似度。
当参考词向量为多个时,则依次计算目标词向量与参考词向量中的每一个的相似度,得到一个相似度集合。由于背景噪音词与语料中其他词的相似度都不高(不满足极高)。因此,可以通过统计相似度集合中的最大值作为该目标词对应的最大相似度。例如,“纠纷”一词与“离婚”、“合同”、“借贷”的相似度为0.6、0.5、0.5,那么“纠纷”对应的最大相似度为0.6,“结婚证”一词与“离婚”、“合同”、“借贷”的相似度为0.9、0.1、0.05,那么“结婚证”对应的最大相似度为0.9。通过将目标词对应的相似度最大值与预设阈值比较来确定目标词是否为背景噪音词,如果目标词对应的相似度最大值小于预设阈值,则说明该目标值为背景噪音词,需要过滤该目标词。
如下代码用于计算语料中每个词与语料中其他词语的相似度,并计算每个词语与语料中其他词语的相似度中值最大的相似度,最后实现将语料中所有词语对应的值最大的相似度进行排序,通过排序可以提高相似度与预设阈值比较的效率,例如,A1、A2、A3分别为三个词对应的值最大相似度,其中A1<A2<A3,当A1大于预设阈值时,则A2、A3无需与预设阈值比较就可以得到大于预设阈值,这样避免将每个词对应的值最大相似度与预设阈值比较:
优选地,通过分布式描述方法将目标词转换为词向量,得到目标词向量,将参考词转换为词向量,得到参考词向量。
上述稀疏描述法一方面存在“词汇鸿沟”的问题,即得到的词向量之间相互孤立,从两个词向量中不能得出两个词之间的相似关系,另一方面该方法容易出现“维数灾难”,即词向量维数过大,导致训练难度、内存占用量过大。分布式描述方法最大的优势在于能够让相关或者相似的词转换得到的词向量在距离上更接近,所谓的距离即余弦夹角的距离。此外,分布式描述方法表示的词向量具有较低的维度,适合于进行机器训练,训练的效率都较高,所占用的内存相对于稀疏描述法较少。因此,采用分布式描述方法将目标词和参考词转换为词向量。
优选地,为了提高词向量训练的效率,在获取目标词和参考词之前,方法还包括:将语料中的文本进行分词,得到切分词集合;以及过滤切分词集合中的停用词,其中,在过滤停用词后的切分词集合中获取目标词和参考词。
语料都是一个个文本,并不是独立的词语,因此,需要对语料的中的文本进行分词,得到一个个独立的词语,例如,将文本“取得结婚证就建立了婚姻关系”进行分词,得到切分词集合{取得,结婚证,就,建立,了,婚姻关系}。从该切分词集合中可以看出,“取得”、“就”、“建立”、“了”这些词对于主题检索和分类并不起作用,这些词即为停用词。如若保留这些停用词,一方面增加了词向量训练过程的复杂度,降低词向量训练的效率,另一方面这些停用词会影响词向量训练的训练质量,从而影响训练得到的词向量之间相似度的准确性。因此在获取词向量训练样本之前需要过滤切分词集合中的停用词,即在获取目标词和参考词之前先过滤切分词中的停用词。
优选地,计算目标词向量和参考词向量的相似度包括:计算目标词向量和参考词向量的夹角的余弦值;以及通过余弦值计算目标词向量和参考词向量的相似度。
通过计算两个词向量的夹角余弦值来表示该词向量对应的两个词的相似度,计算公式如下:
其中,X、Y分别表示词向量X和词向量Y。cosθ的取值范围为[0,1],cosθ越接近1时,则表示两词语之间的相似度越高,反之,cosθ值越接近0,则表示两词语之间的相似度越低。通过计算词向量的夹角的余弦值能够较为直观的反映出两个词的相似度。
从以上的描述中,可以看出,本发明实现了如下技术效果:
本发明实施例通过将语料中的目标词和参考词转换成词向量,计算目标词向量和参考词向量之间的相似度,由于背景噪音词与语料中其他词的相似度都较低,因此通过将目标词对应的相似度最大值与预设阈值比较可以确定目标词是否为需要过滤的背景噪音词,当目标词与参考词的相似度低于预设阈值时则该目标词不倾向于描述语料中文本的主题,因此可以确定该目标词为背景噪音词,需要过滤该目标词。本发明实施例过滤的背景噪音词较为符合实际情况,准确性较高,解决了现有技术中过滤背景噪音词准确率低的问题。本发明实施例在转换语料中的词为词向量之前进行停用词的过滤,提高了词向量训练的效率。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本发明实施例的另一方面,提供了一种用于文本识别的数据处理装置。该用于文本识别的数据处理装置可以用于执行本发明实施例的用于文本识别的数据处理方法,本发明实施的用于文本识别的数据处理方法也可以通过本发明实施例的用于文本识别的数据处理装置来执行。图3是根据本发明实施例的用于文本识别的数据处理装置的示意图。
如图3所示,该装置包括:第一获取单元10、第二获取单元20、转换单元30、计算单元40、比较单元50和确定单元60。
第一获取单元10,用于获取语料中的目标词。
第二获取单元20,用于获取语料中的参考词。
目标词为语料中待过滤的词,参考词则是语料中除目标词外的其他词。在进行背景噪音词过滤过程中,需要依次对语料中的每个词进行判断是否为背景噪音词,当判断出为背景噪音词时,则过滤该词。因此,语料中的每个词依次作为目标词,此时,语料中除该目标词之外的其他词则作为参考词,通过计算该目标词与参考词之间的相似度来判断该目标词是否为背景噪音词。
转换单元30,用于将目标词转换为词向量,得到目标词向量,将参考词转换为词向量,得到参考词向量。
词向量是指词语的向量表示,最简单的表示方法是稀疏描述法(One-hotRepresentation),该方法将词表中的每个词表示成一个由0和1组成的向量,其中,只有一个维度值为1,其余维度值都为0,向量的维度为词表的大小,词表由所有需要进行向量化词语组成,词语的个数即为词表的大小。
优选地,转换单元30通过分布式描述装置将目标词转换为词向量,得到目标词向量,将参考词转换为词向量,得到参考词向量。
分布式描述方法(Distributed Representation)是一种低维词向量表示方法。例如,一个词表同样包含10个词语时,“话筒”的词向量可以仅通过五维向量进行表示,例如[0.792,-0.177,-0.107,0.109,-0.542],这种方式能够大大减少向量的维数。
本发明实施例通过将语料中包含的所有词作为训练样本,包括目标词和参考词,利用机器训练方法得到上述词对应的词向量。常用的机器训练方法有由google提出的深度学习算法word2vec、神经网络训练算法等。通过上述训练方法可以方便的将目标词和参考词转换成词向量。
计算单元40,用于计算目标词向量和参考词向量的相似度。
相似度是指两个词之间的相似程度,可以是语义的相似程度,也可以是词法的相似程度,通过上述两个词对应的词向量之间的距离来表示。两个词向量的距离越短,说明该两个词向量对应的词的相似度越大,进一步说明两个词在语义或是词法上更为接近。常用的描述向量距离的方式有欧氏距离、余弦夹角等。
优选地,计算单元40包括:第二计算模块,用于计算目标词向量和参考词向量的夹角的余弦值;以及第三计算模块,用于通过余弦值计算目标词向量和参考词向量的相似度。
通过计算语料中词语两两之间的相似度,可以将这些词语划分出多个聚类,同一个聚类中的词语两两之间都具有很高的相似度,相反,不同聚类中的词语之间相似度偏低。此处的聚类相当于文本的主题,每个聚类包含的词语都与同一主题具有较高的相关性,这些词都倾向于描述该主题,在该主题下这些词出现的条件概率较高,这些词可以作为检索该主题相关文本的关键词。但是,当一个词与语料中其他词的相似度都不高时,说明该词不倾向于描述任何主题,在任何主题下该词出现的条件概率都较低,则该词即为背景噪音词。
比较单元50,用于比较相似度和预设阈值。
确定单元60,用于当相似度不大于预设阈值时,则确定目标词是背景噪音词,当相似度大于预设阈值时,则确定目标词不是背景噪音词。
相似度能够直观的描述两个词之间的语义相似程度,根据上述描述可知,背景噪音词与语料中其他词的相似度都不高。通过设置一个预设阈值可以区分区背景噪音词。如果相似度不大于预设阈值,说明目标词为背景噪音词,需要对其进行过滤,如果相似度大于预设阈值,则说明目标词为非背景噪音词,则不需要对其进行过滤。
本发明实施例通过装换单元30将语料中的目标词和参考词转换成词向量,通过计算单元40计算目标词向量和参考词向量之间的相似度,并通过比较单元50将得到的相似度与预设阈值比较来确定目标词是否为需要过滤的背景噪音词,当目标词与参考词的相似度低于预设阈值时则该目标词不倾向于描述语料中文本的主题,因此确定单元60可以确定该目标词为背景噪音词,需要过滤该目标词。由于两个词的相似度能够很直观的反映出两个词之间的语义相似程度,通过计算目标词与语料中除目标词外的其他词的相似度可以客观的反映出该目标词与语料中文本的主题的相关性,因此,本发明实施例过滤的背景噪音词较为符合实际情况,准确性较高,解决了现有技术中过滤背景噪音词准确率低的问题。
优选地,参考词向量包括多个参考词向量,计算单元40包括:第一计算模块,用于依次计算目标词向量与多个参考词向量中每一个参考词向量的相似度,得到目标词向量与多个参考词向量的相似度集合;以及获取模块,用于获取相似度集合中值最大的相似度作为目标词向量与参考词向量的相似度。
优选地,该装置还包括:分词单元,用于将语料中的文本进行分词,得到切分词集合;以及过滤单元,用于过滤切分词集合中的停用词,其中,从过滤停用词后的切分词集合中获取目标词和参考词。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种用于文本识别的数据处理方法,其特征在于,包括:
获取语料中的目标词,其中,所述语料中的每个词依次作为所述目标词,在进行背景噪音词过滤时,对所述语料中的每个词进行判断,在判断结果为所述背景噪音词的情况下,将所述语料中被判断为背景噪音词的词过滤;
获取所述语料中的参考词,其中,所述参考词是所述语料中除所述目标词的词;
将所述目标词转换为词向量,得到目标词向量,将所述参考词转换为词向量,得到参考词向量;
计算所述目标词向量和所述参考词向量的相似度;
将所述相似度和预设阈值比较;以及
如果所述相似度不大于所述预设阈值,则确定所述目标词是背景噪音词,如果所述相似度大于所述预设阈值,则确定所述目标词不是背景噪音词。
2.根据权利要求1所述的用于文本识别的数据处理方法,其特征在于,所述参考词向量包括多个参考词向量,计算所述目标词向量与所述参考词向量的相似度包括:
依次计算所述目标词向量与所述多个参考词向量中每一个参考词向量的相似度,得到所述目标词向量与所述多个参考词向量的相似度集合;以及
获取所述相似度集合中值最大的相似度作为所述目标词向量与所述参考词向量的相似度。
3.根据权利要求1所述的用于文本识别的数据处理方法,其特征在于,通过分布式描述方法将所述目标词转换为词向量,得到所述目标词向量,将所述参考词转换为词向量,得到所述参考词向量。
4.根据权利要求1所述的用于文本识别的数据处理方法,其特征在于,在获取所述目标词和所述参考词之前,所述方法还包括:
将所述语料中的文本进行分词,得到切分词集合;以及
过滤所述切分词集合中的停用词,
其中,从过滤停用词后的切分词集合中获取所述目标词和所述参考词。
5.根据权利要求1所述的用于文本识别的数据处理方法,其特征在于,计算所述目标词向量和所述参考词向量的相似度包括:
计算所述目标词向量和所述参考词向量的夹角的余弦值;以及
通过余弦值计算所述目标词向量和所述参考词向量的相似度。
6.一种用于文本识别的数据处理装置,其特征在于,包括:
第一获取单元,用于获取语料中的目标词,其中,所述语料中的每个词依次作为所述目标词,在进行背景噪音词过滤时,对所述语料中的每个词进行判断,在判断结果为所述背景噪音词的情况下,将所述语料中被判断为背景噪音词的词过滤;
第二获取单元,用于获取所述语料中的参考词,其中,所述参考词是所述语料中除所述目标词的词;
转换单元,用于将所述目标词转换为词向量,得到目标词向量,将所述参考词转换为词向量,得到参考词向量;
计算单元,用于计算所述目标词向量和所述参考词向量的相似度;
比较单元,用于比较所述相似度和预设阈值;以及
确定单元,用于当所述相似度不大于所述预设阈值,则确定所述目标词是背景噪音词,当所述相似度大于所述预设阈值,则确定所述目标词不是背景噪音词。
7.根据权利要求6所述的用于文本识别的数据处理装置,其特征在于,所述参考词向量包括多个参考词向量,所述计算单元包括:
第一计算模块,用于依次计算所述目标词向量与所述多个参考词向量中每一个参考词向量的相似度,得到所述目标词向量与所述多个参考词向量的相似度集合;以及
获取模块,用于获取所述相似度集合中值最大的相似度作为所述目标词向量与所述参考词向量的相似度。
8.根据权利要求6所述的用于文本识别的数据处理装置,其特征在于,所述转换单元通过分布式描述装置将所述目标词转换为词向量,得到所述目标词向量,将所述参考词转换为词向量,得到所述参考词向量。
9.根据权利要求6所述的用于文本识别的数据处理装置,其特征在于,所述装置还包括:
分词单元,用于将所述语料中的文本进行分词,得到切分词集合;以及
过滤单元,用于过滤所述切分词集合中的停用词,
其中,从过滤停用词后的切分词集合中获取所述目标词和所述参考词。
10.根据权利要求6所述的用于文本识别的数据处理装置,其特征在于,所述计算单元包括:
第二计算模块,用于计算所述目标词向量和所述参考词向量的夹角的余弦值;
以及
第三计算模块,用于通过余弦值计算所述目标词向量和所述参考词向量的相似度。
CN201410751278.2A 2014-12-09 2014-12-09 用于文本识别的数据处理方法及装置 Active CN104462378B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410751278.2A CN104462378B (zh) 2014-12-09 2014-12-09 用于文本识别的数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410751278.2A CN104462378B (zh) 2014-12-09 2014-12-09 用于文本识别的数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN104462378A CN104462378A (zh) 2015-03-25
CN104462378B true CN104462378B (zh) 2017-11-21

Family

ID=52908413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410751278.2A Active CN104462378B (zh) 2014-12-09 2014-12-09 用于文本识别的数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN104462378B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104751354B (zh) * 2015-04-13 2018-06-26 合一信息技术(北京)有限公司 一种广告人群筛选方法
CN105261362B (zh) * 2015-09-07 2019-07-05 科大讯飞股份有限公司 一种通话语音监测方法及系统
CN105100353B (zh) * 2015-09-08 2017-11-14 陈包容 一种对移动终端的新增联系人进行通讯录分组的方法
CN105262875A (zh) * 2015-09-09 2016-01-20 陈包容 对移动终端的新增联系人进行通讯录分组的方法及装置
CN105245680A (zh) * 2015-09-09 2016-01-13 陈包容 对移动终端的新增联系人进行通讯录分组的方法及装置
CN105681523A (zh) * 2016-03-03 2016-06-15 陈包容 一种自动发送生日祝福短信的方法及装置
CN106021272B (zh) * 2016-04-04 2019-11-19 上海大学 基于分布式表达词向量计算的关键词自动提取方法
CN107291774B (zh) * 2016-04-11 2020-02-07 北京京东尚科信息技术有限公司 错误样本识别方法和装置
CN106547740A (zh) * 2016-11-24 2017-03-29 四川无声信息技术有限公司 文本信息处理方法及装置
CN108133045B (zh) * 2018-01-12 2020-07-24 广州杰赛科技股份有限公司 关键词提取方法与系统、关键词提取模型生成方法与系统
CN108304387B (zh) * 2018-03-09 2021-06-15 联想(北京)有限公司 文本中噪音词的识别方法、装置、服务器组及存储介质
CN108874921A (zh) * 2018-05-30 2018-11-23 广州杰赛科技股份有限公司 提取文本特征词的方法、装置、终端设备及存储介质
CN109241269B (zh) * 2018-07-27 2020-07-17 深圳追一科技有限公司 任务型机器人词槽填充方法
CN110827811A (zh) * 2018-08-13 2020-02-21 格力电器(武汉)有限公司 家电设备的语音控制方法及装置
CN110991161B (zh) * 2018-09-30 2023-04-18 北京国双科技有限公司 相似文本确定方法、神经网络模型获得方法及相关装置
CN109657227A (zh) * 2018-10-08 2019-04-19 平安科技(深圳)有限公司 合同可行性判定方法、设备、存储介质及装置
CN109582790A (zh) * 2018-11-13 2019-04-05 深圳市康拓普信息技术有限公司 一种基于名称高效核对不同系统中的电力设备的方法及装置
CN111401099B (zh) * 2018-12-28 2023-04-07 中国电信股份有限公司 文本识别方法、装置以及存储介质
CN111738009B (zh) * 2019-03-19 2023-10-20 百度在线网络技术(北京)有限公司 实体词标签生成方法、装置、计算机设备和可读存储介质
CN110795936B (zh) * 2019-08-14 2023-09-22 腾讯科技(深圳)有限公司 词向量的获取方法和装置、存储介质及电子装置
CN110851602A (zh) * 2019-11-13 2020-02-28 精硕科技(北京)股份有限公司 一种主题聚类的方法及装置
CN110956033A (zh) * 2019-12-04 2020-04-03 北京中电普华信息技术有限公司 一种文本相似度计算方法及装置
CN111104418B (zh) * 2019-12-23 2023-08-29 北京百度网讯科技有限公司 文本描述的处理方法、装置和电子设备
CN111753541B (zh) * 2020-06-24 2023-08-15 云南电网有限责任公司信息中心 一种对于合同文本数据进行自然语言处理nlp的方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955774A (zh) * 2012-05-30 2013-03-06 华东师范大学 一种计算中文词语语义相似度的控制方法以及装置
CN103226576A (zh) * 2013-04-01 2013-07-31 杭州电子科技大学 基于语义相似度的垃圾评论过滤方法
CN103530281A (zh) * 2013-10-15 2014-01-22 苏州大学 一种论元抽取方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720675B2 (en) * 2003-10-27 2010-05-18 Educational Testing Service Method and system for determining text coherence

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955774A (zh) * 2012-05-30 2013-03-06 华东师范大学 一种计算中文词语语义相似度的控制方法以及装置
CN103226576A (zh) * 2013-04-01 2013-07-31 杭州电子科技大学 基于语义相似度的垃圾评论过滤方法
CN103530281A (zh) * 2013-10-15 2014-01-22 苏州大学 一种论元抽取方法和系统

Also Published As

Publication number Publication date
CN104462378A (zh) 2015-03-25

Similar Documents

Publication Publication Date Title
CN104462378B (zh) 用于文本识别的数据处理方法及装置
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN108197117B (zh) 一种基于文档主题结构与语义的中文文本关键词提取方法
CN106528532B (zh) 文本纠错方法、装置及终端
CN102866989B (zh) 基于词语依存关系的观点抽取方法
CN103514183B (zh) 基于交互式文档聚类的信息检索方法及系统
CN106445998A (zh) 一种基于敏感词的文本内容审核方法及系统
CN106776562A (zh) 一种关键词提取方法和提取系统
CN107153658A (zh) 一种基于关键字加权算法的舆情热词发现方法
CN109376352B (zh) 一种基于word2vec和语义相似度的专利文本建模方法
CN110502642B (zh) 一种基于依存句法分析与规则的实体关系抽取方法
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
CN105069021A (zh) 基于领域的中文短文本情感分类方法
Vani et al. Using K-means cluster based techniques in external plagiarism detection
CN103678275A (zh) 一种基于主客观语义的双层次文本相似度计算方法
CN104778204A (zh) 基于两层聚类的多文档主题发现方法
CN103207913A (zh) 商品细粒度语义关系的获取方法和系统
CN108763348A (zh) 一种扩展短文本词特征向量的分类改进方法
CN105550168A (zh) 一种确定对象的概念词的方法和装置
CN105095430A (zh) 构建词语网络及抽取关键词的方法和装置
CN105760462A (zh) 基于关联数据查询的人机交互方法及装置
CN104239490A (zh) 一种用于ugc网站平台的多账户检测方法及装置
CN102937994A (zh) 一种基于停用词的相似文档查询方法
CN108108346A (zh) 文档的主题特征词抽取方法及装置
Takase et al. Fast and large-scale unsupervised relation extraction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Data processing method and device for text recognition

Effective date of registration: 20190531

Granted publication date: 20171121

Pledgee: Shenzhen Black Horse World Investment Consulting Co., Ltd.

Pledgor: Beijing Guoshuang Technology Co.,Ltd.

Registration number: 2019990000503

PE01 Entry into force of the registration of the contract for pledge of patent right
CP02 Change in the address of a patent holder

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Patentee after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Patentee before: Beijing Guoshuang Technology Co.,Ltd.

CP02 Change in the address of a patent holder