CN106815197B - 文本相似度的确定方法和装置 - Google Patents

文本相似度的确定方法和装置 Download PDF

Info

Publication number
CN106815197B
CN106815197B CN201510850382.1A CN201510850382A CN106815197B CN 106815197 B CN106815197 B CN 106815197B CN 201510850382 A CN201510850382 A CN 201510850382A CN 106815197 B CN106815197 B CN 106815197B
Authority
CN
China
Prior art keywords
pinyin
character string
text
similarity
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510850382.1A
Other languages
English (en)
Other versions
CN106815197A (zh
Inventor
刘粉香
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510850382.1A priority Critical patent/CN106815197B/zh
Publication of CN106815197A publication Critical patent/CN106815197A/zh
Application granted granted Critical
Publication of CN106815197B publication Critical patent/CN106815197B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本相似度的确定方法和装置。其中,该方法包括:将第一中文文本中的汉字转化为拼音,得到第一拼音文本,将第二中文文本中的汉字转化为拼音,得到第二拼音文本;以词语为单元从第一拼音文本中提取出多个第一字符串,以词语为单元从第二拼音文本中提取出多个第二字符串;计算第一字符串Ai与第二字符串Bj的相似度,其中,i取1至m,j取1至n,其中,m为多个第一字符串中第一字符串的个数,n为多个第二字符串中第二字符串的个数;以及将计算出的最大的相似度确定为第一中文文本与第二中文文本的相似度。本申请解决了现有技术难以有效识别因拼写错误造成的相似文本的技术问题。

Description

文本相似度的确定方法和装置
技术领域
本申请涉及文本处理领域,具体而言,涉及一种文本相似度的确定方法和装置。
背景技术
在对文本进行分析的过程中,经常需要对文本进行纠错,即,将文本中所出现的错误用词进行纠正,比如,根据用户输入的“危险拉面”,区分出用户可能的目标词为相似文本“味千拉面”。而对于相似文本的确定方法,目前主要是计算字符串之间相似词语的个数,相似个数越多,表示文本的相似度越高。
然而,发明人发现现有技术的方案对于因拼写错误造成的相似文本很难有效识别,如,其识别结果中“千叶拉面”与“味千拉面”的相似度比“危险拉面”与“味千拉面”的相似度更高。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种文本相似度的确定方法和装置,以至少解决现有技术难以有效识别因拼写错误造成的相似文本的技术问题。
根据本申请实施例的一个方面,提供了一种文本相似度的确定方法,包括:将第一中文文本中的汉字转化为拼音,得到第一拼音文本,将第二中文文本中的汉字转化为拼音,得到第二拼音文本;以词语为单元从所述第一拼音文本中提取出多个第一字符串,以词语为单元从所述第二拼音文本中提取出多个第二字符串,其中,所述第一字符串为第一中文文本中多个连续的词语对应的拼音,所述第二字符串为第二中文文本中多个连续的词语对应的拼音;计算第一字符串Ai与第二字符串Bj的相似度,其中,i取1至m,j取1至n,其中,m为所述多个第一字符串中第一字符串的个数,n为多个第二字符串中第二字符串的个数;以及将计算出的最大的相似度确定为所述第一中文文本与所述第二中文文本的相似度。
进一步地,计算第一字符串Ai与第二字符串Bj的相似度包括以下至少之一:根据第一字符串Ai和第二字符串Bj的字符个数和相同字符的位置计算第一字符串Ai与第二字符串Bj的字符相似度;根据第一字符串Ai和第二字符串Bj的声母个数和相同声母的位置计算第一字符串Ai与第二字符串Bj的声母相似度;根据第一字符串Ai和第二字符串Bj的韵母个数和相同韵母的位置计算第一字符串Ai与第二字符串Bj的韵母相似度;根据第一字符串Ai和第二字符串Bj的整体认读音节个数和相同整体认读音节的位置计算第一字符串Ai与第二字符串Bj的整体认读音节相似度;根据第一字符串Ai和第二字符串Bj的声调个数和相同声调的位置计算第一字符串Ai与第二字符串Bj的声调相似度。
进一步地,在计算出的相似度包括所述字符相似度、所述声母相似度、所述韵母相似度、所述整体认读音节相似度、所述声调相似度中至少两个的情况下,计算第一字符串Ai与第二字符串Bj的相似度还包括:计算所述字符相似度、所述声母相似度、所述韵母相似度、所述整体认读音节相似度、所述声调相似度中至少两个的加权平均值,作为第一字符串Ai与第二字符串Bj的相似度。
进一步地,计算第一字符串Ai与第二字符串Bj的相似度包括:按照汉语拼音的规则统计第一字符串Ai中每种拼音单元的个数和第二字符串Bj中每种拼音单元的个数;由第一字符串Ai中每种拼音单元的个数生成第一特征向量,由第二字符串Bj中每种拼音单元的个数生成第二特征向量;计算所述第一特征向量与所述第二特征向量的距离,作为第一字符串Ai与第二字符串Bj的相似度。
进一步地,按照汉语拼音的规则统计第一字符串Ai中每种拼音单元的个数和第二字符串Bj中每种拼音单元的个数包括:将汉字中的一个声母作为一个拼音单元,一个韵母作为一个拼音单元,统计第一字符串Ai中每种声母和每种韵母的个数以及第二字符串Bj中每种声母和每种韵母的个数;或者,将汉字中的一个整体认读音节作为一个拼音单元,非整体认读音节的汉语拼音的一个声母作为一个拼音单元,非整体认读音节的汉语拼音的一个韵母作为一个拼音单元,统计第一字符串Ai中每种声母、每种韵母以及每种整体认读音节的个数以及第二字符串Bj中每种声母、每种韵母以及每种整体认读音节的个数。
根据本申请实施例的另一方面,还提供了一种文本相似度的确定装置,包括:转化单元,用于将第一中文文本中的汉字转化为拼音,得到第一拼音文本,将第二中文文本中的汉字转化为拼音,得到第二拼音文本;提取单元,用于以词语为单元从所述第一拼音文本中提取出多个第一字符串,以词语为单元从所述第二拼音文本中提取出多个第二字符串,其中,所述第一字符串为第一中文文本中多个连续的词语对应的拼音,所述第二字符串为第二中文文本中多个连续的词语对应的拼音;计算单元,用于计算第一字符串Ai与第二字符串Bj的相似度,其中,i取1至m,j取1至n,其中,m为所述多个第一字符串中第一字符串的个数,n为多个第二字符串中第二字符串的个数;以及确定单元,用于将计算出的最大的相似度确定为所述第一中文文本与所述第二中文文本的相似度。
进一步地,所述计算单元包括以下至少之一:第一计算模块,用于根据第一字符串Ai和第二字符串Bj的字符个数和相同字符的位置计算第一字符串Ai与第二字符串Bj的字符相似度;第二计算模块,用于根据第一字符串Ai和第二字符串Bj的声母个数和相同声母的位置计算第一字符串Ai与第二字符串Bj的声母相似度;第三计算模块,用于根据第一字符串Ai和第二字符串Bj的韵母个数和相同韵母的位置计算第一字符串Ai与第二字符串Bj的韵母相似度;第四计算模块,用于根据第一字符串Ai和第二字符串Bj的整体认读音节个数和相同整体认读音节的位置计算第一字符串Ai与第二字符串Bj的整体认读音节相似度;第五计算模块,用于根据第一字符串Ai和第二字符串Bj的声调个数和相同声调的位置计算第一字符串Ai与第二字符串Bj的声调相似度。
进一步地,所述计算单元还包括:第六计算模块,用于在计算出的相似度包括所述字符相似度、所述声母相似度、所述韵母相似度、所述整体认读音节相似度、所述声调相似度中至少两个的情况下,计算所述字符相似度、所述声母相似度、所述韵母相似度、所述整体认读音节相似度、所述声调相似度中至少两个的加权平均值,作为第一字符串Ai与第二字符串Bj的相似度。
进一步地,所述计算单元包括:统计模块,用于按照汉语拼音的规则统计第一字符串Ai中每种拼音单元的个数和第二字符串Bj中每种拼音单元的个数;生成模块,用于由第一字符串Ai中每种拼音单元的个数生成第一特征向量,由第二字符串Bj中每种拼音单元的个数生成第二特征向量;距离计算模块,用于计算所述第一特征向量与所述第二特征向量的距离,作为第一字符串Ai与第二字符串Bj的相似度。
进一步地,所述统计模块具体用于将汉字中的一个声母作为一个拼音单元,一个韵母作为一个拼音单元,统计第一字符串Ai中每种声母和每种韵母的个数以及第二字符串Bj中每种声母和每种韵母的个数;或者,所述统计模块具体用于将汉字中的一个整体认读音节作为一个拼音单元,非整体认读音节的汉语拼音的一个声母作为一个拼音单元,非整体认读音节的汉语拼音的一个韵母作为一个拼音单元,统计第一字符串Ai中每种声母、每种韵母以及每种整体认读音节的个数以及第二字符串Bj中每种声母、每种韵母以及每种整体认读音节的个数。
根据本申请实施例,通过将第一中文文本中的汉字转化为拼音,得到第一拼音文本,将第二中文文本中的汉字转化为拼音,得到第二拼音文本;以词语为单元从第一拼音文本中提取出多个第一字符串,以词语为单元从第二拼音文本中提取出多个第二字符串,其中,第一字符串为第一中文文本中多个连续的词语对应的拼音,第二字符串为第二中文文本中多个连续的词语对应的拼音;计算第一字符串Ai与第二字符串Bj的相似度,其中,i取1至m,j取1至n,其中,m为多个第一字符串中第一字符串的个数,n为多个第二字符串中第二字符串的个数;将计算出的最大的相似度确定为第一中文文本与第二中文文本的相似度,解决了现有技术难以有效识别因拼写错误造成的相似文本的技术问题,实现了对因拼写错误造成的相似文本的识别。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的文本相似度的确定方法的流程图;
图2是根据本申请实施例的文本相似度的确定装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例,提供了一种文本相似度的确定方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。本申请实施例中的文本相似度的确定方法主要用于因拼写错误写出的文本与正确拼写写出的文本之间的相似度,可以用于对文本错误进行纠正。
图1是根据本申请实施例的文本相似度的确定方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,将第一中文文本中的汉字转化为拼音,得到第一拼音文本,将第二中文文本中的汉字转化为拼音,得到第二拼音文本。
其中,第一中文文本和第二中文文本均可以为文章、段落、语句、短语等。第一中文文本和第二中文文本为待确定相似度的两个文本。本实施例中,将第一中文文本和第二中文文本分别转化成拼音文本。即将中文文本中每个字转化成其对应的拼音,形成拼音文本。例如,将“兴高采烈”转化为“xing gao cai lie”。
步骤S104,以词语为单元从第一拼音文本中提取出多个第一字符串,以词语为单元从第二拼音文本中提取出多个第二字符串,其中,第一字符串为第一中文文本中多个连续的词语对应的拼音,第二字符串为第二中文文本中多个连续的词语对应的拼音。
在将中文文本转化为拼音文本之后,从中提取由多个连续的词语对应的拼音形成的字符串(第一字符串和第二字符串的提取方式相同),例如,文本“请问长江大桥在什么地方”转化为“qing wen chang jiang da qiao zai shen mo di fang”,其中包含的词语为“qing wen”、“chang jiang”、“da qiao”、“zai”、“shen mo”、“di fang”,然后以词语为单位,从中提取出的字符串包括:“qing wen chang jiang”、“qing wen chang jiang daqiao”、“qing wen chang jiang da qiao zai”、“qing wen chang jiang da qiao zaishen mo”、“qing wen chang jiang da qiao zai shen mo di fang”、“chang jiang daqiao”、“chang jiang da qiao zai”、“chang jiang da qiao zai shen mo”、“changjiang da qiao zai shen mo di fang”、“da qiao zai”、“da qiao zai shen mo”、“daqiao zai shen mo di fang”、“zai shen mo”、“zai shen mo di fang”、“shen mo difang”。从上述例子中可以看出,其中提取的字符串的排列顺序与原拼音文本中的字符的排列顺序保持一致。
需要说明的是,本申请实施例中,对第一拼音文本和第二拼音文本进行字符串的提取时,提取所有满足条件的字符串。
步骤S106,计算第一字符串Ai与第二字符串Bj的相似度,其中,i取1至m,j取1至n,其中,m为多个第一字符串中第一字符串的个数,n为多个第二字符串中第二字符串的个数。
步骤S108,将计算出的最大的相似度确定为第一中文文本与第二中文文本的相似度。
在提取到字符串之后,将可以采用车轮法计算第一拼音文本中第一字符串与第二拼音文本中第二字符串的相似度。假如从第一拼音文本中提取出第一字符串包括:第一字符串A1至第一字符串A15,第二拼音文本中提取出的第二字符串包括:第二字符串B1至第二字符串B15,在计算相似度时,计算第一字符串A1与第二字符串B1至第二字符串B15中每一个第二字符串的相似度,然后计算第一字符串A2与第二字符串B1至第二字符串B15中每一个第二字符串的相似度,直到计算出第一字符串A15与第二字符串B1至第二字符串B15中每一个第二字符串的相似度。在计算出上述相似度之后,将其中最大的相似度作为第一中文文本和第二中文文本的相似度。
这样当两个中文文本中存在区别的两个词语为“危险拉面”与“味千拉面”,经过本申请实施例的方案进行检测之后,确定出的“千叶拉面”与“味千拉面”的相似度比“危险拉面”与“味千拉面”的相似度更低,能够确定出拼写错误的文本的相似文本。
根据本申请实施例,通过将第一中文文本中的汉字转化为拼音,得到第一拼音文本,将第二中文文本中的汉字转化为拼音,得到第二拼音文本;以词语为单元从第一拼音文本中提取出多个第一字符串,以词语为单元从第二拼音文本中提取出多个第二字符串,其中,第一字符串为第一中文文本中多个连续的词语对应的拼音,第二字符串为第二中文文本中多个连续的词语对应的拼音;计算第一字符串Ai与第二字符串Bj的相似度,其中,i取1至m,j取1至n,其中,m为多个第一字符串中第一字符串的个数,n为多个第二字符串中第二字符串的个数;将计算出的最大的相似度确定为第一中文文本与第二中文文本的相似度,解决了现有技术难以有效识别因拼写错误造成的相似文本的技术问题,实现了对因拼写错误造成的相似文本的识别。
优选地,计算第一字符串Ai与第二字符串Bj的相似度包括以下至少之一:根据第一字符串Ai和第二字符串Bj的字符个数和相同字符的位置计算第一字符串Ai与第二字符串Bj的字符相似度;根据第一字符串Ai和第二字符串Bj的声母个数和相同声母的位置计算第一字符串Ai与第二字符串Bj的声母相似度;根据第一字符串Ai和第二字符串Bj的韵母个数和相同韵母的位置计算第一字符串Ai与第二字符串Bj的韵母相似度;根据第一字符串Ai和第二字符串Bj的整体认读音节个数和相同整体认读音节的位置计算第一字符串Ai与第二字符串Bj的整体认读音节相似度;根据第一字符串Ai和第二字符串Bj的声调个数和相同声调的位置计算第一字符串Ai与第二字符串Bj的声调相似度。
本实施例中,字符相似度可根据字符的个数、两个字符串中相同字符的位置差异进行计算,相同字符位置差异越小相似度越高;声母相似度可根据拼音中声母的个数和相同声母位置差异进行计算;韵母相似度可根据拼音中韵母的个数和相同韵母位置差异进行计算;整体认读音节相似度可根据拼音中整体认读音节的个数和相同整体认读音节位置差异进行计算;声调相似度可根据拼音中声调的个数和相同声调位置差异进行计算。
根据本申请实施例,通过使用字符相似度、声母相似度、韵母相似度、整体认读音节相似度、声调相似度五个方面的相似度进行字符串的相似度计算,能够很好解决中文文本口语发音、简称等方面问题;结合车轮法比较文本相似度,能够比较文本在字面和读音上的相似性,从而大大提高文本相似度计算的准确性问题。
进一步地,在计算出的相似度包括字符相似度、声母相似度、韵母相似度、整体认读音节相似度、声调相似度中至少两个的情况下,计算第一字符串Ai与第二字符串Bj的相似度还包括:计算字符相似度、声母相似度、韵母相似度、整体认读音节相似度、声调相似度中至少两个的加权平均值,作为第一字符串Ai与第二字符串Bj的相似度。
当计算的相似度为上述中多个相似度时,可以先定义拼音文本中字符串的字符相似度、声母相似度、韵母相似度、整体认读音节相似度、声调相似度5个相似度各自的权重,计算的两个字符串的相似度为其的加权平均值。
根据本申请实施中,通过计算字符串的多个指标(字符、声母、韵母、整体认读音节和声调)的相似度,并加权平均得到最终字符串的相似度,提高了字符串相似度的准确性。
可选地,计算第一字符串Ai与第二字符串Bj的相似度包括:按照汉语拼音的规则统计第一字符串Ai中每种拼音单元的个数和第二字符串Bj中每种拼音单元的个数;由第一字符串Ai中每种拼音单元的个数生成第一特征向量,由第二字符串Bj中每种拼音单元的个数生成第二特征向量;计算第一特征向量与第二特征向量的距离,作为第一字符串Ai与第二字符串Bj的相似度。
汉语拼音的拼写规则为声母加上韵母,即每个汉字对应的拼音为一个或者多个拼音单元所组成,其中,可以将声母和韵母作为拼音单元。由于汉语拼音中还包括整体认读音节,因此,该整体认读音节也可以作为拼音单元。
例如,将字符串“xing gao cai lie”,其中,拆分成的拼音单元可以是“x”、“ing”、“g”、“ao”、“c”、“ai”、“l”、“ie”,各拼音单元的个数均为1。字符串“gao gao xing xing”,统计后“g”、“ao”、“x”、“ing”的个数均为2。
在统计出两个字符串中每种拼音单元的个数之后,由该个数生成相应的特征向量,该特征向量可以是包括多个维度的向量,其中,第一特征向量与第二特征向量的维度数量相同。
可选地,特征向量的生成方式可以是对目前汉语拼音中所有的拼音单元的种类按照预设顺序排序,每个种类的拼音单元对应特征向量的一个维度,拼音文本中每种拼音单元的个数作为拼音单元在特征向量中相应维度的值;还可以是统计两个拼音文本中所出现的所有的拼音单元的种类,生成与种类数相应数量的维度的特征向量,其中,每个字符串中统计的每种拼音单元的个数作为相应的拼音文本对应的特征向量中相应维度的值。例如,“gao gao xing xing”与“gao gao xin xin”两个字符串,其中,拼音单元的种类有“g”、“ao”、“x”、“ing”、“in”,因此生成的特征向量具有5个维度,其中,按照上述排序(“g”、“ao”、“x”、“ing”、“in”)生成的第一特征向量为[2,2,2,2,0],第二特征向量为[2,2,2,0,2]。
在生成第一特征向量与第二特征向量之后,计算这两个向量之间的距离,该距离可以是欧式距离等,作为两个字符串的相似度。
进一步地,按照汉语拼音的规则统计第一字符串Ai中每种拼音单元的个数和第二字符串Bj中每种拼音单元的个数包括:将汉字中的一个声母作为一个拼音单元,一个韵母作为一个拼音单元,统计第一字符串Ai中每种声母和每种韵母的个数以及第二字符串Bj中每种声母和每种韵母的个数。
由于现有的汉语拼音采用拉丁字母,分为声母和韵母,因此,每个汉字中都可以拆分成声母和韵母(有些字则只有韵母,如“爱”等),本实施例中,将每个声母作为一个拼音单元,每个韵母作为一个拼音单元,将拼音文本中每个汉字拆分成声母和韵母,并统计每种声母及每种韵母的个数。
可选地,按照汉语拼音的规则统计第一字符串Ai中每种拼音单元的个数和第二字符串Bj中每种拼音单元的个数包括:将汉字中的一个整体认读音节作为一个拼音单元,非整体认读音节的汉语拼音的一个声母作为一个拼音单元,非整体认读音节的汉语拼音的一个韵母作为一个拼音单元,统计第一字符串Ai中每种声母、每种韵母以及每种整体认读音节的个数以及第二字符串Bj中每种声母、每种韵母以及每种整体认读音节的个数。
由于汉语拼音中包含有添加一个韵母后读音仍和声母一样(或者添加一个声母后读音仍和韵母一样)的音节,即整体认读音节。本实施例中,将整体认读音节作为一个拼音单元,非整体认读音节的汉语拼音,则将声母和韵母分别作为拼音单元,统计出每种拼音单元的个数。例如,汉语拼音中包括23个声母、24个韵母和16个整体认读音节,因此,拼音单元共有63种。
本申请实施例还提供了一种文本相似度的确定装置,该装置可以用于执行本申请实施例的文本相似度的确定方法,如图2所示,该装置包括:转化单元10、提取单元20、计算单元30和确定单元40。
转化单元10用于将第一中文文本中的汉字转化为拼音,得到第一拼音文本,将第二中文文本中的汉字转化为拼音,得到第二拼音文本。
其中,第一中文文本和第二中文文本均可以为文章、段落、语句、短语等。第一中文文本和第二中文文本为待确定相似度的两个文本。本实施例中,将第一中文文本和第二中文文本分别转化成拼音文本。即将中文文本中每个字转化成其对应的拼音,形成拼音文本。例如,将“兴高采烈”转化为“xing gao cai lie”。
提取单元20用于以词语为单元从第一拼音文本中提取出多个第一字符串,以词语为单元从第二拼音文本中提取出多个第二字符串,其中,第一字符串为第一中文文本中多个连续的词语对应的拼音,第二字符串为第二中文文本中多个连续的词语对应的拼音。
在将中文文本转化为拼音文本之后,从中提取由多个连续的词语对应的拼音形成的字符串(第一字符串和第二字符串的提取方式相同),例如,文本“请问长江大桥在什么地方”转化为“qing wen chang jiang da qiao zai shen mo di fang”,其中包含的词语为“qing wen”、“chang jiang”、“da qiao”、“zai”、“shen mo”、“di fang”,然后以词语为单位,从中提取出的字符串包括:“qing wen chang jiang”、“qing wen chang jiang daqiao”、“qing wen chang jiang da qiao zai”、“qing wen chang jiang da qiao zaishen mo”、“qing wen chang jiang da qiao zai shen mo di fang”、“chang jiang daqiao”、“chang jiang da qiao zai”、“chang jiang da qiao zai shen mo”、“changjiang da qiao zai shen mo di fang”、“da qiao zai”、“da qiao zai shen mo”、“daqiao zai shen mo di fang”、“zai shen mo”、“zai shen mo di fang”、“shen mo difang”。从上述例子中可以看出,其中提取的字符串的排列顺序与原拼音文本中的字符的排列顺序保持一致。
需要说明的是,本申请实施例中,对第一拼音文本和第二拼音文本进行字符串的提取时,提取所有满足条件的字符串。
计算单元30用于计算第一字符串Ai与第二字符串Bj的相似度,其中,i取1至m,j取1至n,其中,m为多个第一字符串中第一字符串的个数,n为多个第二字符串中第二字符串的个数。
确定单元40用于将计算出的最大的相似度确定为第一中文文本与第二中文文本的相似度。
在提取到字符串之后,将可以采用车轮法计算第一拼音文本中第一字符串与第二拼音文本中第二字符串的相似度。假如从第一拼音文本中提取出第一字符串包括:第一字符串A1至第一字符串A15,第二拼音文本中提取出的第二字符串包括:第二字符串B1至第二字符串B15,在计算相似度时,计算第一字符串A1与第二字符串B1至第二字符串B15中每一个第二字符串的相似度,然后计算第一字符串A2与第二字符串B1至第二字符串B15中每一个第二字符串的相似度,直到计算出第一字符串A15与第二字符串B1至第二字符串B15中每一个第二字符串的相似度。在计算出上述相似度之后,将其中最大的相似度作为第一中文文本和第二中文文本的相似度。
这样当两个中文文本中存在区别的两个词语为“危险拉面”与“味千拉面”,经过本申请实施例的方案进行检测之后,确定出的“千叶拉面”与“味千拉面”的相似度比“危险拉面”与“味千拉面”的相似度更低,能够确定出拼写错误的文本的相似文本。
根据本申请实施例,通过将第一中文文本中的汉字转化为拼音,得到第一拼音文本,将第二中文文本中的汉字转化为拼音,得到第二拼音文本;以词语为单元从第一拼音文本中提取出多个第一字符串,以词语为单元从第二拼音文本中提取出多个第二字符串,其中,第一字符串为第一中文文本中多个连续的词语对应的拼音,第二字符串为第二中文文本中多个连续的词语对应的拼音;计算第一字符串Ai与第二字符串Bj的相似度,其中,i取1至m,j取1至n,其中,m为多个第一字符串中第一字符串的个数,n为多个第二字符串中第二字符串的个数;将计算出的最大的相似度确定为第一中文文本与第二中文文本的相似度,解决了现有技术难以有效识别因拼写错误造成的相似文本的技术问题,实现了对因拼写错误造成的相似文本的识别。
优选地,计算单元包括以下至少之一:第一计算模块,用于根据第一字符串Ai和第二字符串Bj的字符个数和相同字符的位置计算第一字符串Ai与第二字符串Bj的字符相似度;第二计算模块,用于根据第一字符串Ai和第二字符串Bj的声母个数和相同声母的位置计算第一字符串Ai与第二字符串Bj的声母相似度;第三计算模块,用于根据第一字符串Ai和第二字符串Bj的韵母个数和相同韵母的位置计算第一字符串Ai与第二字符串Bj的韵母相似度;第四计算模块,用于根据第一字符串Ai和第二字符串Bj的整体认读音节个数和相同整体认读音节的位置计算第一字符串Ai与第二字符串Bj的整体认读音节相似度;第五计算模块,用于根据第一字符串Ai和第二字符串Bj的声调个数和相同声调的位置计算第一字符串Ai与第二字符串Bj的声调相似度。
本实施例中,字符相似度可根据字符的个数、两个字符串中相同字符的位置差异进行计算,相同字符位置差异越小相似度越高;声母相似度可根据拼音中声母的个数和相同声母位置差异进行计算;韵母相似度可根据拼音中韵母的个数和相同韵母位置差异进行计算;整体认读音节相似度可根据拼音中整体认读音节的个数和相同整体认读音节位置差异进行计算;声调相似度可根据拼音中声调的个数和相同声调位置差异进行计算。
根据本申请实施例,通过使用字符相似度、声母相似度、韵母相似度、整体认读音节相似度、声调相似度五个方面的相似度进行字符串的相似度计算,能够很好解决中文文本口语发音、简称等方面问题;结合车轮法比较文本相似度,能够比较文本在字面和读音上的相似性,从而大大提高文本相似度计算的准确性问题。
优选地,计算单元还包括:第六计算模块,用于在计算出的相似度包括字符相似度、声母相似度、韵母相似度、整体认读音节相似度、声调相似度中至少两个的情况下,计算字符相似度、声母相似度、韵母相似度、整体认读音节相似度、声调相似度中至少两个的加权平均值,作为第一字符串Ai与第二字符串Bj的相似度。
当计算的相似度为上述中多个相似度时,可以先定义拼音文本中字符串的字符相似度、声母相似度、韵母相似度、整体认读音节相似度、声调相似度5个相似度各自的权重,计算的两个字符串的相似度为其的加权平均值。
根据本申请实施中,通过计算字符串的多个指标(字符、声母、韵母、整体认读音节和声调)的相似度,并加权平均得到最终字符串的相似度,提高了字符串相似度的准确性。
可选地,计算单元包括:统计模块,用于按照汉语拼音的规则统计第一字符串Ai中每种拼音单元的个数和第二字符串Bj中每种拼音单元的个数;生成模块,用于由第一字符串Ai中每种拼音单元的个数生成第一特征向量,由第二字符串Bj中每种拼音单元的个数生成第二特征向量;距离计算模块,用于计算第一特征向量与第二特征向量的距离,作为第一字符串Ai与第二字符串Bj的相似度。
汉语拼音的拼写规则为声母加上韵母,即每个汉字对应的拼音为一个或者多个拼音单元所组成,其中,可以将声母和韵母作为拼音单元。由于汉语拼音中还包括整体认读音节,因此,该整体认读音节也可以作为拼音单元。
例如,将字符串“xing gao cai lie”,其中,拆分成的拼音单元可以是“x”、“ing”、“g”、“ao”、“c”、“ai”、“l”、“ie”,各拼音单元的个数均为1。字符串“gao gao xing xing”,统计后“g”、“ao”、“x”、“ing”的个数均为2。
在统计出两个字符串中每种拼音单元的个数之后,由该个数生成相应的特征向量,该特征向量可以是包括多个维度的向量,其中,第一特征向量与第二特征向量的维度数量相同。
可选地,特征向量的生成方式可以是对目前汉语拼音中所有的拼音单元的种类按照预设顺序排序,每个种类的拼音单元对应特征向量的一个维度,拼音文本中每种拼音单元的个数作为拼音单元在特征向量中相应维度的值;还可以是统计两个拼音文本中所出现的所有的拼音单元的种类,生成与种类数相应数量的维度的特征向量,其中,每个字符串中统计的每种拼音单元的个数作为相应的拼音文本对应的特征向量中相应维度的值。例如,“gao gao xing xing”与“gao gao xin xin”两个字符串,其中,拼音单元的种类有“g”、“ao”、“x”、“ing”、“in”,因此生成的特征向量具有5个维度,其中,按照上述排序(“g”、“ao”、“x”、“ing”、“in”)生成的第一特征向量为[2,2,2,2,0],第二特征向量为[2,2,2,0,2]。
在生成第一特征向量与第二特征向量之后,计算这两个向量之间的距离,该距离可以是欧式距离等,作为两个字符串的相似度。
进一步地,统计模块具体用于将汉字中的一个声母作为一个拼音单元,一个韵母作为一个拼音单元,统计第一字符串Ai中每种声母和每种韵母的个数以及第二字符串Bj中每种声母和每种韵母的个数。
由于现有的汉语拼音采用拉丁字母,分为声母和韵母,因此,每个汉字中都可以拆分成声母和韵母(有些字则只有韵母,如“爱”等),本实施例中,将每个声母作为一个拼音单元,每个韵母作为一个拼音单元,将拼音文本中每个汉字拆分成声母和韵母,并统计每种声母及每种韵母的个数。
可选地,统计模块具体用于将汉字中的一个整体认读音节作为一个拼音单元,非整体认读音节的汉语拼音的一个声母作为一个拼音单元,非整体认读音节的汉语拼音的一个韵母作为一个拼音单元,统计第一字符串Ai中每种声母、每种韵母以及每种整体认读音节的个数以及第二字符串Bj中每种声母、每种韵母以及每种整体认读音节的个数。
由于汉语拼音中包含有添加一个韵母后读音仍和声母一样(或者添加一个声母后读音仍和韵母一样)的音节,即整体认读音节。本实施例中,将整体认读音节作为一个拼音单元,非整体认读音节的汉语拼音,则将声母和韵母分别作为拼音单元,统计出每种拼音单元的个数。例如,汉语拼音中包括23个声母、24个韵母和16个整体认读音节,因此,拼音单元共有63种。
所述文本相似度的确定装置包括处理器和存储器,上述转化单元10、提取单元20、计算单元30和确定单元40等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来确定文本之间的相似度。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(f l ash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:将第一中文文本中的汉字转化为拼音,得到第一拼音文本,将第二中文文本中的汉字转化为拼音,得到第二拼音文本;以词语为单元从第一拼音文本中提取出多个第一字符串,以词语为单元从第二拼音文本中提取出多个第二字符串;计算第一字符串Ai与第二字符串Bj的相似度,其中,i取1至m,j取1至n,其中,m为多个第一字符串中第一字符串的个数,n为多个第二字符串中第二字符串的个数;以及将计算出的最大的相似度确定为第一中文文本与第二中文文本的相似度。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (4)

1.一种文本相似度的确定方法,其特征在于,包括:
将第一中文文本中的汉字转化为拼音,得到第一拼音文本,将第二中文文本中的汉字转化为拼音,得到第二拼音文本;
以词语为单元从所述第一拼音文本中提取出多个第一字符串,以词语为单元从所述第二拼音文本中提取出多个第二字符串,其中,所述第一字符串为第一中文文本中多个连续的词语对应的拼音,所述第二字符串为第二中文文本中多个连续的词语对应的拼音;
计算第一字符串Ai与第二字符串Bj的相似度,其中,i取1至m,j取1至n,m为所述多个第一字符串中第一字符串的个数,n为所述多个第二字符串中第二字符串的个数;以及
将计算出的最大的相似度确定为所述第一中文文本与所述第二中文文本的相似度;
其中,计算第一字符串Ai与第二字符串Bj的相似度包括:按照汉语拼音的规则统计第一字符串Ai中每种拼音单元的个数和第二字符串Bj中每种拼音单元的个数;由第一字符串Ai中每种拼音单元的个数生成第一特征向量,由第二字符串Bj中每种拼音单元的个数生成第二特征向量;计算所述第一特征向量与所述第二特征向量的距离,作为第一字符串Ai与第二字符串Bj的相似度。
2. 根据权利要求1所述的方法,其特征在于,在计算出的相似度包括所述第一特征向量与所述第二特征向量的距离的情况下,按照汉语拼音的规则统计第一字符串Ai中每种拼音单元的个数和第二字符串Bj中每种拼音单元的个数包括:
将汉字中的一个声母作为一个拼音单元,一个韵母作为一个拼音单元,统计第一字符串Ai中每种声母和每种韵母的个数以及第二字符串Bj中每种声母和每种韵母的个数;或者
将汉字中的一个整体认读音节作为一个拼音单元,非整体认读音节的汉语拼音的一个声母作为一个拼音单元,非整体认读音节的汉语拼音的一个韵母作为一个拼音单元,统计第一字符串Ai中非整体认读音节所包含的每种声母、非整体认读音节所包含的每种韵母以及每种整体认读音节的个数以及第二字符串Bj中非整体认读音节所包含的每种声母、非整体认读音节所包含的每种韵母以及每种整体认读音节的个数。
3.一种文本相似度的确定装置,其特征在于,包括:
转化单元,用于将第一中文文本中的汉字转化为拼音,得到第一拼音文本,将第二中文文本中的汉字转化为拼音,得到第二拼音文本;
提取单元,用于以词语为单元从所述第一拼音文本中提取出多个第一字符串,以词语为单元从所述第二拼音文本中提取出多个第二字符串,其中,所述第一字符串为第一中文文本中多个连续的词语对应的拼音,所述第二字符串为第二中文文本中多个连续的词语对应的拼音;
计算单元,用于计算第一字符串Ai与第二字符串Bj的相似度,其中,i取1至m,j取1至n,其中,m为所述多个第一字符串中第一字符串的个数,n为所述多个第二字符串中第二字符串的个数;以及
确定单元,用于将计算出的最大的相似度确定为所述第一中文文本与所述第二中文文本的相似度;
其中,计算单元包括:统计模块,用于按照汉语拼音的规则统计第一字符串Ai中每种拼音单元的个数和第二字符串Bj中每种拼音单元的个数;生成模块,用于由第一字符串Ai中每种拼音单元的个数生成第一特征向量,由第二字符串Bj中每种拼音单元的个数生成第二特征向量;距离计算模块,用于计算所述第一特征向量与所述第二特征向量的距离,作为第一字符串Ai与第二字符串Bj的相似度。
4.根据权利要求3所述的装置,其特征在于,在所述计算单元包括统计模块、生成模块和距离计算模块的情况下,所述统计模块具体用于将汉字中的一个声母作为一个拼音单元,一个韵母作为一个拼音单元,统计第一字符串Ai中每种声母和每种韵母的个数以及第二字符串Bj中每种声母和每种韵母的个数;或者,所述统计模块具体用于将汉字中的一个整体认读音节作为一个拼音单元,非整体认读音节的汉语拼音的一个声母作为一个拼音单元,非整体认读音节的汉语拼音的一个韵母作为一个拼音单元,统计第一字符串Ai中非整体认读音节所包含的每种声母、非整体认读音节所包含的每种韵母以及每种整体认读音节的个数以及第二字符串Bj中非整体认读音节所包含的每种声母、非整体认读音节所包含的每种韵母以及每种整体认读音节的个数。
CN201510850382.1A 2015-11-27 2015-11-27 文本相似度的确定方法和装置 Active CN106815197B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510850382.1A CN106815197B (zh) 2015-11-27 2015-11-27 文本相似度的确定方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510850382.1A CN106815197B (zh) 2015-11-27 2015-11-27 文本相似度的确定方法和装置

Publications (2)

Publication Number Publication Date
CN106815197A CN106815197A (zh) 2017-06-09
CN106815197B true CN106815197B (zh) 2020-07-31

Family

ID=59155499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510850382.1A Active CN106815197B (zh) 2015-11-27 2015-11-27 文本相似度的确定方法和装置

Country Status (1)

Country Link
CN (1) CN106815197B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273359A (zh) * 2017-06-20 2017-10-20 北京四海心通科技有限公司 一种文本相似度确定方法
CN107909054B (zh) * 2017-11-30 2021-05-04 任艳 图片文本的相似度评价方法及装置
CN108154167B (zh) * 2017-12-04 2021-08-20 昆明理工大学 一种汉字字形相似度计算方法
CN108319978B (zh) * 2018-02-01 2021-01-22 北京捷通华声科技股份有限公司 一种语义相似度计算方法及装置
CN109036419A (zh) * 2018-07-23 2018-12-18 努比亚技术有限公司 一种语音识别匹配方法、终端及计算机可读存储介质
CN109036420B (zh) * 2018-07-23 2021-01-26 努比亚技术有限公司 一种语音识别控制方法、终端及计算机可读存储介质
CN109492202B (zh) * 2018-11-12 2022-12-27 浙江大学山东工业技术研究院 一种基于拼音的编码与解码模型的中文纠错方法
CN109712616B (zh) * 2018-11-29 2023-11-14 平安科技(深圳)有限公司 基于数据处理的电话号码纠错方法、装置及计算机设备
CN111444450A (zh) * 2019-01-16 2020-07-24 北大方正集团有限公司 转载数据确定方法及设备
CN109977412B (zh) * 2019-03-29 2022-12-27 北京林业大学 语音识别文本的字段值纠错方法、装置及存储控制器
CN110782892B (zh) * 2019-10-25 2022-03-25 四川长虹电器股份有限公司 语音文本纠错方法
CN111382562B (zh) * 2020-03-05 2024-03-01 百度在线网络技术(北京)有限公司 文本相似度的确定方法、装置、电子设备及存储介质
CN111460175A (zh) * 2020-04-08 2020-07-28 福州数据技术研究院有限公司 一种基于snomed-ct的医学名词词典构造与拓展方法
CN112015874A (zh) * 2020-07-30 2020-12-01 上海松鼠课堂人工智能科技有限公司 学生心理健康陪伴对话系统
CN112182167B (zh) * 2020-11-06 2023-12-22 平安科技(深圳)有限公司 一种文本匹配方法、装置、终端设备和存储介质
CN112766236B (zh) * 2021-03-10 2023-04-07 拉扎斯网络科技(上海)有限公司 文本生成方法、装置、计算机设备及计算机可读存储介质
CN115250375B (zh) * 2021-04-26 2024-01-26 北京中关村科金技术有限公司 一种基于固定话术的音视频内容合规性检测方法及装置
CN113704594A (zh) * 2021-08-31 2021-11-26 芸豆数字科技有限公司 一种中药药材的检索方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101847141A (zh) * 2010-06-03 2010-09-29 复旦大学 中文词语语义相似度度量方法
CN102122298A (zh) * 2011-03-07 2011-07-13 清华大学 一种中文相似性匹配方法
CN102298632A (zh) * 2011-09-06 2011-12-28 神华集团有限责任公司 字符串相似度计算方法及装置以及物资分类方法及装置
CN102955774A (zh) * 2012-05-30 2013-03-06 华东师范大学 一种计算中文词语语义相似度的控制方法以及装置
CN103077213A (zh) * 2012-12-28 2013-05-01 中山大学 一种应用于机顶盒的输入方法及其装置
CN104679728A (zh) * 2015-02-06 2015-06-03 中国农业大学 一种文本相似度检测方法
CN104778171A (zh) * 2014-01-10 2015-07-15 携程计算机技术(上海)有限公司 字符串匹配系统及方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770328B (zh) * 2009-01-04 2012-06-27 英业达股份有限公司 多重切分的中文拼音系统及其方法
US20100235311A1 (en) * 2009-03-13 2010-09-16 Microsoft Corporation Question and answer search
CN103207905B (zh) * 2013-03-28 2015-12-23 大连理工大学 一种基于目标文本的计算文本相似度的方法
CN103399907A (zh) * 2013-07-31 2013-11-20 深圳市华傲数据技术有限公司 一种基于编辑距离计算中文字符串相似度的方法及装置
CN103678675A (zh) * 2013-12-25 2014-03-26 乐视网信息技术(北京)股份有限公司 通过拼音进行搜索的方法、服务器及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101847141A (zh) * 2010-06-03 2010-09-29 复旦大学 中文词语语义相似度度量方法
CN102122298A (zh) * 2011-03-07 2011-07-13 清华大学 一种中文相似性匹配方法
CN102298632A (zh) * 2011-09-06 2011-12-28 神华集团有限责任公司 字符串相似度计算方法及装置以及物资分类方法及装置
CN102955774A (zh) * 2012-05-30 2013-03-06 华东师范大学 一种计算中文词语语义相似度的控制方法以及装置
CN103077213A (zh) * 2012-12-28 2013-05-01 中山大学 一种应用于机顶盒的输入方法及其装置
CN104778171A (zh) * 2014-01-10 2015-07-15 携程计算机技术(上海)有限公司 字符串匹配系统及方法
CN104679728A (zh) * 2015-02-06 2015-06-03 中国农业大学 一种文本相似度检测方法

Also Published As

Publication number Publication date
CN106815197A (zh) 2017-06-09

Similar Documents

Publication Publication Date Title
CN106815197B (zh) 文本相似度的确定方法和装置
Faruqui et al. Morphological inflection generation using character sequence to sequence learning
CN108140019B (zh) 语言模型生成装置、语言模型生成方法以及记录介质
US11010554B2 (en) Method and device for identifying specific text information
CN111079412A (zh) 文本纠错方法及装置
CN106815593B (zh) 中文文本相似度的确定方法和装置
JP5809381B1 (ja) 自然言語処理システム、自然言語処理方法、および自然言語処理プログラム
CN109977203B (zh) 语句相似度确定方法、装置、电子设备及可读存储介质
CN111914825B (zh) 文字识别方法、装置及电子设备
CN111639495A (zh) 平行语料生成方法、装置、设备及存储介质
CN112765319B (zh) 一种文本的处理方法、装置、电子设备及存储介质
CN112784582A (zh) 纠错方法、装置和计算设备
CN113657098A (zh) 文本纠错方法、装置、设备及存储介质
CN113449514A (zh) 一种适用于特定垂直领域的文本纠错方法及其纠错装置
CN113255331B (zh) 文本纠错方法、装置及存储介质
CN109614494B (zh) 一种文本分类方法及相关装置
CN106815191B (zh) 修正词的确定方法和装置
Saha et al. Word clustering and word selection based feature reduction for MaxEnt based Hindi NER
CN111209724A (zh) 文本的校验方法、装置、存储介质以及处理器
KR20120046850A (ko) 한글에 대한 유사도 계산 방법
KR20160053587A (ko) 엔-그램 언어 모델의 데이터베이스 사이즈 최소화 방법
Kim et al. Reliable automatic word spacing using a space insertion and correction model based on neural networks in Korean
Choi et al. Robust feature extraction method for automatic sentiment classification of erroneous online customer reviews
Rajendran et al. Text processing for developing unrestricted Tamil text to speech synthesis system
CN111667813B (zh) 处理文件的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant