CN106815593B - 中文文本相似度的确定方法和装置 - Google Patents
中文文本相似度的确定方法和装置 Download PDFInfo
- Publication number
- CN106815593B CN106815593B CN201510850305.6A CN201510850305A CN106815593B CN 106815593 B CN106815593 B CN 106815593B CN 201510850305 A CN201510850305 A CN 201510850305A CN 106815593 B CN106815593 B CN 106815593B
- Authority
- CN
- China
- Prior art keywords
- pinyin
- text
- unit
- chinese
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请公开了一种中文文本相似度的确定方法和装置。其中,该方法包括:将第一中文文本中的汉字转化为拼音,得到第一拼音文本,将第二中文文本中的汉字转化为拼音,得到第二拼音文本,按照汉语拼音的规则统计第一拼音文本中每种拼音单元的个数和第二拼音文本中每种拼音单元的个数,由第一拼音文本中每种拼音单元的个数生成第一特征向量,由第二拼音文本中每种拼音单元的个数生成第二特征向量,计算第一特征向量与第二特征向量的距离,根据距离确定第一中文文本与第二中文文本的相似度,其中,距离越小,第一中文文本与第二中文文本的相似度越高。本申请解决了现有技术难以有效识别因拼写错误造成的相似文本的技术问题。
Description
技术领域
本申请涉及文本处理领域,具体而言,涉及一种中文文本相似度的确定方法和装置。
背景技术
在对文本进行分析的过程中,经常需要对文本进行纠错,即,将文本中所出现的错误用词进行纠正,比如,根据用户输入的“危险拉面”,区分出用户可能的目标词为相似文本“味千拉面”。而对于相似文本的确定方法,目前主要是计算字符串之间相似词语的个数,相似个数越多,表示文本的相似度越高。
然而,发明人发现现有技术的方案对于因拼写错误造成的相似文本很难有效识别,如,其识别结果中“千叶拉面”与“味千拉面”的相似度比“危险拉面”与“味千拉面”的相似度更高。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种中文文本相似度的确定方法和装置,以至少解决现有技术难以有效识别因拼写错误造成的相似文本的技术问题。
根据本申请实施例的一个方面,提供了一种中文文本相似度的确定方法,包括:将第一中文文本中的汉字转化为拼音,得到第一拼音文本,将第二中文文本中的汉字转化为拼音,得到第二拼音文本;按照汉语拼音的规则统计所述第一拼音文本中每种拼音单元的个数和所述第二拼音文本中每种拼音单元的个数;由所述第一拼音文本中每种拼音单元的个数生成第一特征向量,由所述第二拼音文本中每种拼音单元的个数生成第二特征向量;计算所述第一特征向量与所述第二特征向量的距离;根据所述距离确定所述第一中文文本与所述第二中文文本的相似度,其中,所述距离越小,所述第一中文文本与所述第二中文文本的相似度越高。
进一步地,按照汉语拼音的规则统计所述第一拼音文本中每种拼音单元的个数和所述第二拼音文本中每种拼音单元的个数包括:将汉字中的一个声母作为一个拼音单元,一个韵母作为一个拼音单元,统计所述第一拼音文本中每种声母和每种韵母的个数以及所述第二拼音文本中每种声母和每种韵母的个数。
进一步地,按照汉语拼音的规则统计所述第一拼音文本中每种拼音单元的个数和所述第二拼音文本中每种拼音单元的个数包括:将汉字中的一个整体认读音节作为一个拼音单元,非整体认读音节的汉语拼音的一个声母作为一个拼音单元,非整体认读音节的汉语拼音的一个韵母作为一个拼音单元,统计所述第一拼音文本中每种声母、每种韵母以及每种整体认读音节的个数以及所述第二拼音文本中每种声母、每种韵母以及每种整体认读音节的个数。
进一步地,由所述第一拼音文本中每种拼音单元的个数生成第一特征向量,由所述第二拼音文本中每种拼音单元的个数生成第二特征向量包括:将所述第一拼音文本中每种拼音单元的个数分别插入到预设向量的相应维度的位置,得到所述第一特征向量,将所述第二拼音文本中每种拼音单元的个数分别插入到预设向量的相应维度的位置,得到所述第二特征向量,其中,所述预设向量为具有与按照预设顺序排列的拼音单元的种类一一对应的多个维度的向量。
进一步地,计算所述第一特征向量与所述第二特征向量的距离包括:计算所述第一特征向量与所述第二特征向量中每个对应维度的差;将所述每个对应维度的差取绝对值,并将所述绝对值相加,得到所述距离。
根据本申请实施例的另一方面,还提供了一种中文文本相似度的确定装置,包括:转化单元,用于将第一中文文本中的汉字转化为拼音,得到第一拼音文本,将第二中文文本中的汉字转化为拼音,得到第二拼音文本;统计单元,用于按照汉语拼音的规则统计所述第一拼音文本中每种拼音单元的个数和所述第二拼音文本中每种拼音单元的个数;生成单元,用于由所述第一拼音文本中每种拼音单元的个数生成第一特征向量,由所述第二拼音文本中每种拼音单元的个数生成第二特征向量;计算单元,用于计算所述第一特征向量与所述第二特征向量的距离;确定单元,用于根据所述距离确定所述第一中文文本与所述第二中文文本的相似度,其中,所述距离越小,所述第一中文文本与所述第二中文文本的相似度越高。
进一步地,所述统计单元具体用于将汉字中的一个声母作为一个拼音单元,一个韵母作为一个拼音单元,统计所述第一拼音文本中每种声母和每种韵母的个数以及所述第二拼音文本中每种声母和每种韵母的个数。
进一步地,所述统计单元具体用于将汉字中的一个整体认读音节作为一个拼音单元,非整体认读音节的汉语拼音的一个声母作为一个拼音单元,非整体认读音节的汉语拼音的一个韵母作为一个拼音单元,统计所述第一拼音文本中每种声母、每种韵母以及每种整体认读音节的个数以及所述第二拼音文本中每种声母、每种韵母以及每种整体认读音节的个数。
进一步地,所述生成单元具体用于将所述第一拼音文本中每种拼音单元的个数分别插入到预设向量的相应维度的位置,得到所述第一特征向量,将所述第二拼音文本中每种拼音单元的个数分别插入到预设向量的相应维度的位置,得到所述第二特征向量,其中,所述预设向量为具有与按照预设顺序排列的拼音单元的种类一一对应的多个维度的向量。
进一步地,所述计算单元包括:第一计算模块,用于计算所述第一特征向量与所述第二特征向量中每个对应维度的差;第二计算模块,用于将所述每个对应维度的差取绝对值,并将所述绝对值相加,得到所述距离。
根据本发明实施例,将第一中文文本中的汉字转化为拼音,得到第一拼音文本,将第二中文文本中的汉字转化为拼音,得到第二拼音文本,按照汉语拼音的规则统计第一拼音文本中每种拼音单元的个数和第二拼音文本中每种拼音单元的个数,由第一拼音文本中每种拼音单元的个数生成第一特征向量,由第二拼音文本中每种拼音单元的个数生成第二特征向量,计算第一特征向量与第二特征向量的距离,根据距离确定第一中文文本与第二中文文本的相似度,其中,距离越小,第一中文文本与第二中文文本的相似度越高,解决了现有技术难以有效识别因拼写错误造成的相似文本的技术问题,实现了对因拼写错误造成的相似文本的识别。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的中文文本相似度的确定方法的流程图;
图2是根据本申请实施例的中文文本相似度的确定装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例,提供了一种中文文本相似度的确定方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例的中文文本相似度的确定方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,将第一中文文本中的汉字转化为拼音,得到第一拼音文本,将第二中文文本中的汉字转化为拼音,得到第二拼音文本。
其中,第一中文文本和第二中文文本均可以为文章、语句、短语等。第一中文文本和第二中文文本为待确定相似度的两个文本。本实施例中,将第一中文文本和第二中文文本分别转化成拼音文本。即将中文文本中每个字转化成其对应的拼音,形成拼音文本。例如,将“兴高采烈”转化为“xing gao cai lie”。
步骤S104,按照汉语拼音的规则统计第一拼音文本中每种拼音单元的个数和第二拼音文本中每种拼音单元的个数。
汉语拼音的拼写规则为声母加上韵母,即每个汉字对应的拼音为一个或者多个拼音单元所组成,其中,可以将声母和韵母作为拼音单元。由于汉语拼音中还包括整体认读音节,因此,该整体认读音节也可以作为拼音单元。
例如,上述“xing gao cai lie”,其中,拆分成的拼音单元可以是“x”、“ing”、“g”、“ao”、“c”、“ai”、“l”、“ie”,各拼音单元的个数均为1。拼音文本“gao gao xing xing”,统计后“g”、“ao”、“x”、“ing”的个数均为2。
步骤S106,由第一拼音文本中每种拼音单元的个数生成第一特征向量,由第二拼音文本中每种拼音单元的个数生成第二特征向量。
在统计出两个拼音文本中每种拼音单元的个数之后,由该个数生成相应的特征向量,该特征向量可以是包括多个维度的向量,其中,第一特征向量与第二特征向量的维度数量相同。
可选地,特征向量的生成方式可以是对目前汉语拼音中所有的拼音单元的种类按照预设顺序排序,每个种类的拼音单元对应特征向量的一个维度,拼音文本中每种拼音单元的个数作为拼音单元在特征向量中相应维度的值;还可以是统计两个拼音文本中所出现的所有的拼音单元的种类,生成与种类数相应数量的维度的特征向量,其中,每个拼音文本中统计的每种拼音单元的个数作为相应的拼音文本对应的特征向量中相应维度的值。例如,“gao gao xing xing”与“gao gao xin xin”两个拼音文本,其中,拼音单元的种类有“g”、“ao”、“x”、“ing”、“in”,因此生成的特征向量具有5个维度,其中,按照上述排序(“g”、“ao”、“x”、“ing”、“in”)生成的第一拼音文本的特征向量(即第一特征向量)为[2,2,2,2,0],第二拼音文本的特征向量(即第二特征向量)为[2,2,2,0,2]。
步骤S108,计算第一特征向量与第二特征向量的距离。
步骤S110,根据距离确定第一中文文本与第二中文文本的相似度,其中,距离越小,第一中文文本与第二中文文本的相似度越高。
在生成第一特征向量与第二特征向量之后,计算这两个向量之间的距离,该距离可以是欧式距离等。再根据计算出的距离确定两个中文文本之间的相似度,距离越大,二者相似度越小,距离越小,二者之间的相似度越大。例如,确定出的“千叶拉面”与“味千拉面”的相似度比“危险拉面”与“味千拉面”的相似度更低,能够确定出拼写错误的文本的相似文本。
根据本发明实施例,将第一中文文本中的汉字转化为拼音,得到第一拼音文本,将第二中文文本中的汉字转化为拼音,得到第二拼音文本,按照汉语拼音的规则统计第一拼音文本中每种拼音单元的个数和第二拼音文本中每种拼音单元的个数,由第一拼音文本中每种拼音单元的个数生成第一特征向量,由第二拼音文本中每种拼音单元的个数生成第二特征向量,计算第一特征向量与第二特征向量的距离,根据距离确定第一中文文本与第二中文文本的相似度,其中,距离越小,第一中文文本与第二中文文本的相似度越高,解决了现有技术难以有效识别因拼写错误造成的相似文本的技术问题,实现了对因拼写错误造成的相似文本的识别。
优选地,按照汉语拼音的规则统计第一拼音文本中每种拼音单元的个数和第二拼音文本中每种拼音单元的个数包括:将汉字中的一个声母作为一个拼音单元,一个韵母作为一个拼音单元,统计第一拼音文本中每种声母和每种韵母的个数以及第二拼音文本中每种声母和每种韵母的个数。
由于现有的汉语拼音采用拉丁字母,分为声母和韵母,因此,每个汉字中都可以拆分成声母和韵母(有些字则只有韵母,如“爱”等),本实施例中,将每个声母作为一个拼音单元,每个韵母作为一个拼音单元,将拼音文本中每个汉字拆分成声母和韵母,并统计每种声母及每种韵母的个数。
可选地,按照汉语拼音的规则统计第一拼音文本中每种拼音单元的个数和第二拼音文本中每种拼音单元的个数包括:将汉字中的一个整体认读音节作为一个拼音单元,非整体认读音节的汉语拼音的一个声母作为一个拼音单元,非整体认读音节的汉语拼音的一个韵母作为一个拼音单元,统计第一拼音文本中每种声母、每种韵母以及每种整体认读音节的个数以及第二拼音文本中每种声母、每种韵母以及每种整体认读音节的个数。
由于汉语拼音中包含有添加一个韵母后读音仍和声母一样(或者添加一个声母后读音仍和韵母一样)的音节,即整体认读音节。本实施例中,将整体认读音节作为一个拼音单元,非整体认读音节的汉语拼音,则将声母和韵母分别作为拼音单元,统计出每种拼音单元的个数。例如,汉语拼音中包括23个声母、24个韵母和16个整体认读音节,因此,拼音单元共有63种。
优选地,由第一拼音文本中每种拼音单元的个数生成第一特征向量,由第二拼音文本中每种拼音单元的个数生成第二特征向量包括:将第一拼音文本中每种拼音单元的个数分别插入到预设向量的相应维度的位置,得到第一特征向量,将第二拼音文本中每种拼音单元的个数分别插入到预设向量的相应维度的位置,得到第二特征向量,其中,预设向量为具有与按照预设顺序排列的拼音单元的种类一一对应的多个维度的向量。
本发明实施例中,预设向量每一个维度表示一种拼音单元,其中生成特征向量中,每个维度的值表示相应的拼音单元在每种拼音文本中出现的次数即统计出的个数。其中,所有的拼音单元按照预设顺序进行排序,对应到预设向量中每一个维度,该预设顺序为任意选定的顺序。
例如,上述按照声母、韵母、整体认读音节来统计拼音单元的实施例中,统计两个拼音文本中所有的声母、韵母、整体认读音节的个数,分别插入到63维的预设向量中,生成两个拼音文本的特征向量,其中,63维是根据为拼音中所有声母、韵母、整体认读音节个数之和得到。如“高高兴兴”的拼音为“gao gao xing xing”统计“g”“ao”“x”“ing”分别的个数分别为2,则在“高高兴兴”的63维文本读音特征向量中,对应的声母和韵母位置为2,其他位置为0,特征向量为[…,2,…,2,…,2,…,2,…](省略部分为0)。
本申请实施例中,利用预先确定预设向量,在生成特征向量时,只需将统计得到的拼音单元的个数插入到预设向量中即可,生成方式简单。
优选地,计算第一特征向量与第二特征向量的距离包括:计算第一特征向量与第二特征向量中每个对应维度的差;将每个对应维度的差取绝对值,并将绝对值相加,得到距离。
两个特征向量的距离可以用1范数等进行计算,1范数计算方式为:将两个向量对应位置(即对应维度的值)的差取绝对值,并进行相加,得到数表示两个拼音文本即为距离,该数越小,表示相似度越高。如“危险拉面”和“味千拉面”的相似度比“千叶拉面”和“味千拉面”的相似度更高。
本申请实施例中,将两个中文文本的相似度判断过程转化为两个向量之间的距离判断,提高了相似文本的识别的准确性和速度。
本申请实施例还提供了一种中文文本相似度的确定装置,该装置可以用于执行本申请实施例的中文文本相似度的确定方法,如图2所示,该装置包括:转化单元10、统计单元20、生成单元30、计算单元40和确定单元50。
转化单元10用于将第一中文文本中的汉字转化为拼音,得到第一拼音文本,将第二中文文本中的汉字转化为拼音,得到第二拼音文本。
其中,第一中文文本和第二中文文本均可以为文章、语句、短语等。第一中文文本和第二中文文本为待确定相似度的两个文本。本实施例中,将第一中文文本和第二中文文本分别转化成拼音文本。即将中文文本中每个字转化成其对应的拼音,形成拼音文本。例如,将“兴高采烈”转化为“xing gao cai lie”。
统计单元20用于按照汉语拼音的规则统计第一拼音文本中每种拼音单元的个数和第二拼音文本中每种拼音单元的个数。
汉语拼音的拼写规则为声母加上韵母,即每个汉字对应的拼音为一个或者多个拼音单元所组成,其中,可以将声母和韵母作为拼音单元。由于汉语拼音中还包括整体认读音节,因此,该整体认读音节也可以作为拼音单元。
例如,上述“xing gao cai lie”,其中,拆分成的拼音单元可以是“x”、“ing”、“g”、“ao”、“c”、“ai”、“l”、“ie”,各拼音单元的个数均为1。拼音文本“gao gao xing xing”,统计后“g”、“ao”、“x”、“ing”的个数均为2。
生成单元30用于由第一拼音文本中每种拼音单元的个数生成第一特征向量,由第二拼音文本中每种拼音单元的个数生成第二特征向量。
在统计出两个拼音文本中每种拼音单元的个数之后,由该个数生成相应的特征向量,该特征向量可以是包括多个维度的向量,其中,第一特征向量与第二特征向量的维度数量相同。
可选地,特征向量的生成方式可以是对目前汉语拼音中所有的拼音单元的种类按照预设顺序排序,每个种类的拼音单元对应特征向量的一个维度,拼音文本中每种拼音单元的个数作为拼音单元在特征向量中相应维度的值;还可以是统计两个拼音文本中所出现的所有的拼音单元的种类,生成与种类数相应数量的维度的特征向量,其中,每个拼音文本中统计的每种拼音单元的个数作为相应的拼音文本对应的特征向量中相应维度的值。例如,“gao gao xing xing”与“gao gao xin xin”两个拼音文本,其中,拼音单元的种类有“g”、“ao”、“x”、“ing”、“in”,因此生成的特征向量具有5个维度,其中,按照上述排序(“g”、“ao”、“x”、“ing”、“in”)生成的第一拼音文本的特征向量(即第一特征向量)为[2,2,2,2,0],第二拼音文本的特征向量(即第二特征向量)为[2,2,2,0,2]。
计算单元40用于计算第一特征向量与第二特征向量的距离。
确定单元50用于根据距离确定第一中文文本与第二中文文本的相似度,其中,距离越小,第一中文文本与第二中文文本的相似度越高。
在生成第一特征向量与第二特征向量之后,计算这两个向量之间的距离,该距离可以是欧式距离等。再根据计算出的距离确定两个中文文本之间的相似度,距离越大,二者相似度越小,距离越小,二者之间的相似度越大。例如,确定出的“千叶拉面”与“味千拉面”的相似度比“危险拉面”与“味千拉面”的相似度更低,能够确定出拼写错误的文本的相似文本。
根据本发明实施例,将第一中文文本中的汉字转化为拼音,得到第一拼音文本,将第二中文文本中的汉字转化为拼音,得到第二拼音文本,按照汉语拼音的规则统计第一拼音文本中每种拼音单元的个数和第二拼音文本中每种拼音单元的个数,由第一拼音文本中每种拼音单元的个数生成第一特征向量,由第二拼音文本中每种拼音单元的个数生成第二特征向量,计算第一特征向量与第二特征向量的距离,根据距离确定第一中文文本与第二中文文本的相似度,其中,距离越小,第一中文文本与第二中文文本的相似度越高,解决了现有技术难以有效识别因拼写错误造成的相似文本的技术问题,实现了对因拼写错误造成的相似文本的识别。
优选地,统计单元具体用于将汉字中的一个声母作为一个拼音单元,一个韵母作为一个拼音单元,统计第一拼音文本中每种声母和每种韵母的个数以及第二拼音文本中每种声母和每种韵母的个数。
由于现有的汉语拼音采用拉丁字母,分为声母和韵母,因此,每个汉字中都可以拆分成声母和韵母(有些字则只有韵母,如“爱”等),本实施例中,将每个声母作为一个拼音单元,每个韵母作为一个拼音单元,将拼音文本中每个汉字拆分成声母和韵母,并统计每种声母及每种韵母的个数。
优选地,统计单元具体用于将汉字中的一个整体认读音节作为一个拼音单元,非整体认读音节的汉语拼音的一个声母作为一个拼音单元,非整体认读音节的汉语拼音的一个韵母作为一个拼音单元,统计第一拼音文本中每种声母、每种韵母以及每种整体认读音节的个数以及第二拼音文本中每种声母、每种韵母以及每种整体认读音节的个数。
由于汉语拼音中包含有添加一个韵母后读音仍和声母一样(或者添加一个声母后读音仍和韵母一样)的音节,即整体认读音节。本实施例中,将整体认读音节作为一个拼音单元,非整体认读音节的汉语拼音,则将声母和韵母分别作为拼音单元,统计出每种拼音单元的个数。例如,汉语拼音中包括23个声母、24个韵母和16个整体认读音节,因此,拼音单元共有63种。
优选地,生成单元具体用于将第一拼音文本中每种拼音单元的个数分别插入到预设向量的相应维度的位置,得到第一特征向量,将第二拼音文本中每种拼音单元的个数分别插入到预设向量的相应维度的位置,得到第二特征向量,其中,预设向量为具有与按照预设顺序排列的拼音单元的种类一一对应的多个维度的向量。
本发明实施例中,预设向量每一个维度表示一种拼音单元,其中生成特征向量中,每个维度的值表示相应的拼音单元在每种拼音文本中出现的次数即统计出的个数。其中,所有的拼音单元按照预设顺序进行排序,对应到预设向量中每一个维度,该预设顺序为任意选定的顺序。
例如,上述按照声母、韵母、整体认读音节来统计拼音单元的实施例中,统计两个拼音文本中所有的声母、韵母、整体认读音节的个数,分别插入到63维的预设向量中,生成两个拼音文本的特征向量,其中,63维是根据为拼音中所有声母、韵母、整体认读音节个数之和得到。如“高高兴兴”的拼音为“gao gao xing xing”统计“g”“ao”“x”“ing”分别的个数分别为2,则在“高高兴兴”的63维文本读音特征向量中,对应的声母和韵母位置为2,其他位置为0,特征向量为[…,2,…,2,…,2,…,2,…](省略部分为0)。
本申请实施例中,利用预先确定预设向量,在生成特征向量时,只需将统计得到的拼音单元的个数插入到预设向量中即可,生成方式简单。
优选地,计算单元包括:第一计算模块,用于计算第一特征向量与第二特征向量中每个对应维度的差;第二计算模块,用于将每个对应维度的差取绝对值,并将绝对值相加,得到距离。
两个特征向量的距离可以用1范数等进行计算,1范数计算方式为:将两个向量对应位置(即对应维度的值)的差取绝对值,并进行相加,得到数表示两个拼音文本即为距离,该数越小,表示相似度越高。如“危险拉面”和“味千拉面”的相似度比“千叶拉面”和“味千拉面”的相似度更高。
本申请实施例中,将两个中文文本的相似度判断过程转化为两个向量之间的距离判断,提高了相似文本的识别的准确性和速度。
所述中文文本相似度的确定装置包括处理器和存储器,上述转化单元10、统计单元20、生成单元30、计算单元40和确定单元50等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元。上述都可以存储在存储器中。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数确定文本内容的相似度。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:将第一中文文本中的汉字转化为拼音,得到第一拼音文本,将第二中文文本中的汉字转化为拼音,得到第二拼音文本,按照汉语拼音的规则统计第一拼音文本中每种拼音单元的个数和第二拼音文本中每种拼音单元的个数,由第一拼音文本中每种拼音单元的个数生成第一特征向量,由第二拼音文本中每种拼音单元的个数生成第二特征向量,计算第一特征向量与第二特征向量的距离,根据距离确定第一中文文本与第二中文文本的相似度,其中,距离越小,第一中文文本与第二中文文本的相似度越高。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (8)
1.一种中文文本相似度的确定方法,其特征在于,包括:
将第一中文文本中的汉字转化为拼音,得到第一拼音文本,将第二中文文本中的汉字转化为拼音,得到第二拼音文本;
按照汉语拼音的规则统计所述第一拼音文本中每种拼音单元的个数和所述第二拼音文本中每种拼音单元的个数;
由所述第一拼音文本中每种拼音单元的个数生成第一特征向量,由所述第二拼音文本中每种拼音单元的个数生成第二特征向量;
计算所述第一特征向量与所述第二特征向量的距离;
根据所述距离确定所述第一中文文本与所述第二中文文本的相似度,其中,所述距离越小,所述第一中文文本与所述第二中文文本的相似度越高;
其中,按照汉语拼音的规则统计所述第一拼音文本中每种拼音单元的个数和所述第二拼音文本中每种拼音单元的个数包括:将汉字中的一个声母作为一个拼音单元,一个韵母作为一个拼音单元,统计所述第一拼音文本中每种声母和每种韵母的个数以及所述第二拼音文本中每种声母和每种韵母的个数。
2.根据权利要求1所述的方法,其特征在于,按照汉语拼音的规则统计所述第一拼音文本中每种拼音单元的个数和所述第二拼音文本中每种拼音单元的个数包括:
将汉字中的一个整体认读音节作为一个拼音单元,非整体认读音节的汉语拼音的一个声母作为一个拼音单元,非整体认读音节的汉语拼音的一个韵母作为一个拼音单元,统计所述第一拼音文本中每种声母、每种韵母以及每种整体认读音节的个数以及所述第二拼音文本中每种声母、每种韵母以及每种整体认读音节的个数。
3.根据权利要求1或2中任一项所述的方法,其特征在于,由所述第一拼音文本中每种拼音单元的个数生成第一特征向量,由所述第二拼音文本中每种拼音单元的个数生成第二特征向量包括:
将所述第一拼音文本中每种拼音单元的个数分别插入到预设向量的相应维度的位置,得到所述第一特征向量,将所述第二拼音文本中每种拼音单元的个数分别插入到预设向量的相应维度的位置,得到所述第二特征向量,其中,所述预设向量为具有与按照预设顺序排列的拼音单元的种类一一对应的多个维度的向量。
4.根据权利要求1所述的方法,其特征在于,计算所述第一特征向量与所述第二特征向量的距离包括:
计算所述第一特征向量与所述第二特征向量中每个对应维度的差;
将所述每个对应维度的差取绝对值,并将所述绝对值相加,得到所述距离。
5.一种中文文本相似度的确定装置,其特征在于,包括:
转化单元,用于将第一中文文本中的汉字转化为拼音,得到第一拼音文本,将第二中文文本中的汉字转化为拼音,得到第二拼音文本;
统计单元,用于按照汉语拼音的规则统计所述第一拼音文本中每种拼音单元的个数和所述第二拼音文本中每种拼音单元的个数;
生成单元,用于由所述第一拼音文本中每种拼音单元的个数生成第一特征向量,由所述第二拼音文本中每种拼音单元的个数生成第二特征向量;
计算单元,用于计算所述第一特征向量与所述第二特征向量的距离;
确定单元,用于根据所述距离确定所述第一中文文本与所述第二中文文本的相似度,其中,所述距离越小,所述第一中文文本与所述第二中文文本的相似度越高;
所述统计单元具体用于将汉字中的一个声母作为一个拼音单元,一个韵母作为一个拼音单元,统计所述第一拼音文本中每种声母和每种韵母的个数以及所述第二拼音文本中每种声母和每种韵母的个数。
6.根据权利要求5所述的装置,其特征在于,所述统计单元具体用于将汉字中的一个整体认读音节作为一个拼音单元,非整体认读音节的汉语拼音的一个声母作为一个拼音单元,非整体认读音节的汉语拼音的一个韵母作为一个拼音单元,统计所述第一拼音文本中每种声母、每种韵母以及每种整体认读音节的个数以及所述第二拼音文本中每种声母、每种韵母以及每种整体认读音节的个数。
7.根据权利要求5或6中任一项所述的装置,其特征在于,所述生成单元具体用于将所述第一拼音文本中每种拼音单元的个数分别插入到预设向量的相应维度的位置,得到所述第一特征向量,将所述第二拼音文本中每种拼音单元的个数分别插入到预设向量的相应维度的位置,得到所述第二特征向量,其中,所述预设向量为具有与按照预设顺序排列的拼音单元的种类一一对应的多个维度的向量。
8.根据权利要求5所述的装置,其特征在于,所述计算单元包括:
第一计算模块,用于计算所述第一特征向量与所述第二特征向量中每个对应维度的差;
第二计算模块,用于将所述每个对应维度的差取绝对值,并将所述绝对值相加,得到所述距离。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510850305.6A CN106815593B (zh) | 2015-11-27 | 2015-11-27 | 中文文本相似度的确定方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510850305.6A CN106815593B (zh) | 2015-11-27 | 2015-11-27 | 中文文本相似度的确定方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106815593A CN106815593A (zh) | 2017-06-09 |
CN106815593B true CN106815593B (zh) | 2019-12-10 |
Family
ID=59155413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510850305.6A Active CN106815593B (zh) | 2015-11-27 | 2015-11-27 | 中文文本相似度的确定方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106815593B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729300B (zh) * | 2017-09-18 | 2021-12-24 | 百度在线网络技术(北京)有限公司 | 文本相似度的处理方法、装置、设备和计算机存储介质 |
CN108319978B (zh) * | 2018-02-01 | 2021-01-22 | 北京捷通华声科技股份有限公司 | 一种语义相似度计算方法及装置 |
CN109741749B (zh) * | 2018-04-19 | 2020-03-27 | 北京字节跳动网络技术有限公司 | 一种语音识别的方法和终端设备 |
CN109299726A (zh) * | 2018-08-01 | 2019-02-01 | 昆明理工大学 | 一种基于特征向量和笔顺编码的汉字字形相似算法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102122298A (zh) * | 2011-03-07 | 2011-07-13 | 清华大学 | 一种中文相似性匹配方法 |
CN102184195A (zh) * | 2011-04-20 | 2011-09-14 | 北京百度网讯科技有限公司 | 用于获取字符串间相似度的方法、装置和设备 |
CN102214238A (zh) * | 2011-07-01 | 2011-10-12 | 临沂大学 | 一种汉语词语相近性匹配装置及方法 |
CN102332012A (zh) * | 2011-09-13 | 2012-01-25 | 南方报业传媒集团 | 基于类别之间相关性学习的中文文本分类方法 |
CN103207905A (zh) * | 2013-03-28 | 2013-07-17 | 大连理工大学 | 一种基于目标文本的计算文本相似度的方法 |
CN103605694A (zh) * | 2013-11-04 | 2014-02-26 | 北京奇虎科技有限公司 | 一种相似文本检测装置和方法 |
WO2014087703A1 (ja) * | 2012-12-06 | 2014-06-12 | 楽天株式会社 | 単語分割装置、単語分割方法、及び単語分割プログラム |
-
2015
- 2015-11-27 CN CN201510850305.6A patent/CN106815593B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102122298A (zh) * | 2011-03-07 | 2011-07-13 | 清华大学 | 一种中文相似性匹配方法 |
CN102184195A (zh) * | 2011-04-20 | 2011-09-14 | 北京百度网讯科技有限公司 | 用于获取字符串间相似度的方法、装置和设备 |
CN102214238A (zh) * | 2011-07-01 | 2011-10-12 | 临沂大学 | 一种汉语词语相近性匹配装置及方法 |
CN102332012A (zh) * | 2011-09-13 | 2012-01-25 | 南方报业传媒集团 | 基于类别之间相关性学习的中文文本分类方法 |
WO2014087703A1 (ja) * | 2012-12-06 | 2014-06-12 | 楽天株式会社 | 単語分割装置、単語分割方法、及び単語分割プログラム |
CN103207905A (zh) * | 2013-03-28 | 2013-07-17 | 大连理工大学 | 一种基于目标文本的计算文本相似度的方法 |
CN103605694A (zh) * | 2013-11-04 | 2014-02-26 | 北京奇虎科技有限公司 | 一种相似文本检测装置和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106815593A (zh) | 2017-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106815197B (zh) | 文本相似度的确定方法和装置 | |
US11010554B2 (en) | Method and device for identifying specific text information | |
CN111079412A (zh) | 文本纠错方法及装置 | |
CN107341143B (zh) | 一种句子连贯性判断方法及装置和电子设备 | |
CN106815593B (zh) | 中文文本相似度的确定方法和装置 | |
CN111274367A (zh) | 语意分析方法、语意分析系统及非暂态计算机可读取媒体 | |
CN113255331B (zh) | 文本纠错方法、装置及存储介质 | |
KR20150037924A (ko) | 제품 인식에 근거한 정보 분류 기법 | |
JP5809381B1 (ja) | 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム | |
CN111859940B (zh) | 一种关键词提取方法、装置、电子设备及存储介质 | |
CN112765319B (zh) | 一种文本的处理方法、装置、电子设备及存储介质 | |
CN111506726A (zh) | 基于词性编码的短文本聚类方法、装置及计算机设备 | |
CN113657098A (zh) | 文本纠错方法、装置、设备及存储介质 | |
CN113282717B (zh) | 文本中实体关系的抽取方法、装置、电子设备及存储介质 | |
Kiperwasser et al. | Semi-supervised dependency parsing using bilexical contextual features from auto-parsed data | |
CN111209724A (zh) | 文本的校验方法、装置、存储介质以及处理器 | |
CN106815191B (zh) | 修正词的确定方法和装置 | |
US10789410B1 (en) | Identification of source languages for terms | |
Saha et al. | Word clustering and word selection based feature reduction for MaxEnt based Hindi NER | |
KR101163458B1 (ko) | 한글에 대한 유사도 계산 방법 | |
CN113239245A (zh) | 用于信息查询的方法及装置、电子设备、可读存储介质 | |
CN112069821A (zh) | 一种命名实体的提取方法、装置、电子设备及存储介质 | |
KR20160053587A (ko) | 엔-그램 언어 모델의 데이터베이스 사이즈 최소화 방법 | |
Tongtep et al. | Simultaneous character-cluster-based word segmentation and named entity recognition in Thai language | |
CN114139541B (zh) | 命名实体识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Applicant after: Beijing Guoshuang Technology Co.,Ltd. Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing Applicant before: Beijing Guoshuang Technology Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |