CN112257436A - 文本检测方法及装置 - Google Patents
文本检测方法及装置 Download PDFInfo
- Publication number
- CN112257436A CN112257436A CN202011053447.7A CN202011053447A CN112257436A CN 112257436 A CN112257436 A CN 112257436A CN 202011053447 A CN202011053447 A CN 202011053447A CN 112257436 A CN112257436 A CN 112257436A
- Authority
- CN
- China
- Prior art keywords
- word
- text
- original
- word vector
- text detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 251
- 239000013598 vector Substances 0.000 claims abstract description 319
- 238000013519 translation Methods 0.000 claims abstract description 59
- 238000000034 method Methods 0.000 claims abstract description 51
- 238000004422 calculation algorithm Methods 0.000 claims description 38
- 230000000692 anti-sense effect Effects 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 20
- 229940028444 muse Drugs 0.000 claims description 10
- GMVPRGQOIOIIMI-DWKJAMRDSA-N prostaglandin E1 Chemical compound CCCCC[C@H](O)\C=C\[C@H]1[C@H](O)CC(=O)[C@@H]1CCCCCCC(O)=O GMVPRGQOIOIIMI-DWKJAMRDSA-N 0.000 claims description 10
- 239000000126 substance Substances 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 32
- 238000013461 design Methods 0.000 description 24
- 230000000694 effects Effects 0.000 description 22
- 238000004891 communication Methods 0.000 description 13
- 241000227653 Lycopersicon Species 0.000 description 8
- 235000007688 Lycopersicon esculentum Nutrition 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 6
- 230000003190 augmentative effect Effects 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 5
- 230000001413 cellular effect Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000001915 proofreading effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/51—Translation evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种文本检测方法及装置,能够解决在对译文和原文进行校对时,效率低、精确度差的问题,适用于终端设备或网络设备。该方法包括:根据原文文本对应的原文词向量集合中的元素与译文文本对应的译文词向量集合的中的元素之间的匹配结果和第一匹配阈值,生成词对齐结果。其中,词对齐结果包括词向量对集合,词向量对集合包括一一对应的原文词向量集合中的元素、译文词向量集合中的元素组成的词向量对。确定词向量对集合中属于译文词向量集合的每个元素对应的译文词语,以及译文词语对应的第一原文词语。根据译文词语对应的原文文本中的第二原文词语与第一原文词语关联的近义词集合的归属关系,确定第一文本检测结果。
Description
技术领域
本申请涉及人工智能领域,尤其涉及一种文本检测方法及装置。
背景技术
随着全球化的发展和进步,不同国家、不同民族之间的交流也越来越频繁,而通常地不同国家、不同民族之间存在语言差异,因此,需要对不同语言的文本进行翻译,以便用户能够清楚未知语言的文本记载的内容。例如,用户通常利用翻译软件或者人工翻译的方式对不同语言的文本进行翻译。在翻译完毕后,译文文本相对于原文文本可能会存在翻译误差,因此,需要对译文文本进行校对。
目前,可以采用语言专家将译文文本与原文文本进行逐一的校对的方式,检测译文文本与原文文本是否存在翻译误差。可以理解地,通过上述人工校对的方式,需要消耗的时间长,效率低,并且校对结果的精确度,主要决定于语言专家的专业性、工作专注度及细致程度,可靠性低。
发明内容
本申请实施例提供一种文本检测方法及装置,能够解决在对译文和原文进行校对时,效率低、精确度差的问题。
为达到上述目的,本申请采用如下技术方案:
第一方面,提供一种文本检测方法,应用于终端设备或网络设备。该文本检测方法包括:根据原文文本对应的原文词向量集合中的元素与译文文本对应的译文词向量集合的中的元素之间的匹配结果和第一匹配阈值,生成词对齐结果。其中,词对齐结果包括词向量对集合,词向量对集合包括一一对应的原文词向量集合中的元素、译文词向量集合中的元素组成的词向量对。确定词向量对集合中属于译文词向量集合的每个元素对应的译文词语,以及译文词语对应的第一原文词语。根据译文词语对应的原文文本中的第二原文词语与第一原文词语关联的近义词集合的归属关系,确定第一文本检测结果。
基于第一方面所述的文本检测方法,通过将原文文本中的原文词语与译文文本中的译文词语对齐,然后将译文词语翻译回原文词语,找到翻译回的原文词语关联的近义词集合,并根据原文文本中的原文词语与近义词集合的归属关系,确定文本检测结果,无需语言专家逐一地比对,提高了检测的效率,同时检测结果也不依赖于语言专家的专注度与细致程度,提高了检测的精确度。
一种可能的设计方案中,上述根据原文文本对应的原文词向量集合中的元素与译文文本对应的译文词向量集合的中的元素之间的匹配结果和第一匹配阈值,确定词对齐结果,可以包括:将原文词向量集合中的每个元素与译文词向量集合中的每个元素相似度比对。根据相似度高于第一匹配阈值的原文词向量集合中的元素、译文词向量集合的中的元素,构建待对齐词向量对集合。根据词向量对齐算法,从待对齐词向量对集合中提取总相似度最高的待对齐词向量子集作为词向量对集合。由于提取的是总相似度最高的待对齐词向量子集作可以为词向量对集合,因此,可以精准地完成词向量对齐。
进一步地,词向量对齐算法可以为匈牙利算法或线性规划算法。
一种可能的设计方案中,在根据译文词语对应的原文文本中的第二原文词语与第一原文词语关联的近义词集合的归属关系,确定第一文本检测结果之前,第一方面所述的方法还可以包括:根据多语言无监督和有监督嵌入MUSE算法,将译文词语对应的第一原文词语处理为第一词向量。将第一词向量与预存储的目标语言词典集合中的第二词向量相似度比对。将相似度高于第二匹配阈值的第二词向量对应的词语集合,确定为与译文词语对应的第一原文词语关联的近义词集合。由于无需人工参与,如此,可以高效地确定与译文词语对应的第一原文词语关联的近义词集合。
一种可能的设计方案中,词对齐结果还可以包括原文词向量集合中未包含于词向量对集合的词向量子集。第一方面所述的方法还可以包括:根据词向量子集中的元素对应的第三原文词语与反义副词集合之间的归属关系以及第一文本检测结果,确定第二文本检测结果。如此,将结合未包含于词向量对集合的词向量子集及包含于词向量对集合的词向量子集作为生成文本检测结果的参考依据,参考的数据内容更全面,可以得到可靠性高的文本检测结果。
进一步地,第二文本检测结果可以包括第三文本检测结果或第四文本检测结果。其中,第三文本检测结果,表征词向量子集中的元素对应的第三原文词语归属于反义副词集合且第一文本检测结果未出现语义反转。第四文本检测结果,表征词向量子集中的元素对应的第三原文词语归属于预设的反义副词集合且第一文本检测结果出现语义反转;以及表征词向量子集中的元素对应的词语未归属于预设的反义副词集合。
一种可能的设计方案中,第一文本检测结果可以包括:第五文本检测结果或第六文本检测结果。其中,第五文本检测结果,表征原文文本中的第二原文词语属于对应的第一原文词语关联的近义词集合。第六文本检测结果,表征原文文本中的第二原文词语不属于对应的第一原文词语关联的近义词集合。
一种可能的设计方案中,原文文本对应的原文词向量集合中的元素与译文文本对应的译文词向量集合的中的元素之间的匹配方式可以为如下一项或多项:余弦相似度匹配或皮尔森相关系数匹配或欧里几德距离匹配。
第二方面,本申请实施例还提供一种文本检测装置,包括:生成模块和确定模块。其中,
生成模块,用于根据原文文本对应的原文词向量集合中的元素与译文文本对应的译文词向量集合的中的元素之间的匹配结果和第一匹配阈值,生成词对齐结果。其中,词对齐结果包括词向量对集合,词向量对集合包括一一对应的原文词向量集合中的元素、译文词向量集合中的元素组成的词向量对。确定模块,用于确定词向量对集合中属于译文词向量集合的每个元素对应的译文词语,以及译文词语对应的第一原文词语。确定模块,还用于根据译文词语对应的原文文本中的第二原文词语与第一原文词语关联的近义词集合的归属关系,确定第一文本检测结果。
一种可能的设计方案中,生成模块可以包括:获取单元、构建单元和词对齐单元。其中,获取单元,用于获取原文词向量集合中的每个元素与译文词向量集合中的每个元素之间的第一相似度。构建单元,用于根据第一相似度高于所述第一匹配阈值的原文词向量集合中的元素、译文词向量集合的中的元素,构建待对齐词向量对集合。词对齐单元,用于根据词向量对齐算法,从待对齐词向量对集合中提取总相似度最高的待对齐词向量子集作为词向量对集合,其中,总相似度为待对齐词向量子集中的词向量对的第一相似度之和。
进一步地,词向量对齐算法可以为匈牙利算法或线性规划算法。
一种可能的设计方案中,生成模块,还可以用于根据多语言无监督和有监督嵌入MUSE算法,将译文词语对应的第一原文词语处理为第一词向量。确定模块,还可以用于确定第一词向量与预存储的目标语言词典集合中的第二词向量之间的第二相似度。确定模块,还可以用于将第二相似度高于第二匹配阈值的第二词向量对应的词语集合,确定为与译文词语对应的第一原文词语关联的近义词集合。
一种可能的设计方案中,词对齐结果还可以包括原文词向量集合中未包含于词向量对集合的词向量子集。相应地,确定模块,还可以用于根据词向量子集中的元素对应的第三原文词语与反义副词集合之间的归属关系以及第一文本检测结果,确定第二文本检测结果。
进一步地,第二文本检测结果可以包括第三文本检测结果或第四文本检测结果。其中,第三文本检测结果,表征词向量子集中的元素对应的第三原文词语归属于反义副词集合且第一文本检测结果未出现语义反转。第四文本检测结果,表征词向量子集中的元素对应的第三原文词语归属于预设的反义副词集合且第一文本检测结果出现语义反转;以及表征词向量子集中的元素对应的词语未归属于预设的反义副词集合。
一种可能的设计方案中,第一文本检测结果可以包括:第五文本检测结果或第六文本检测结果。其中,第五文本检测结果,表征原文文本中的第二原文词语属于对应的第一原文词语关联的近义词集合。第六文本检测结果,表征原文文本中的第二原文词语不属于对应的第一原文词语关联的近义词集合。
一种可能的设计方案中,原文文本对应的原文词向量集合中的元素与译文文本对应的译文词向量集合的中的元素之间的匹配方式可以为:余弦相似度匹配或皮尔森相关系数匹配或欧里几德距离匹配。
可选地,上述的生成模块、确定模块可以集成于一个模块,如处理模块,也可以分别单独独立设置,在此不做限定。
可选地,第二方面所述的装置还可以包括存储模块。该存储模块存储有程序或指令。当处理模块执行该程序或指令时,使得该装置可以执行第一方面所述的文本检测方法。
可选地,第二方面所述的装置还可以包括收发模块。其中,收发模块用于实现第二方面所述的装置的收发功能。例如,收发模块可以用于收发原文文本或译文文本。进一步地,收发模块可以包括接收模块和发送模块。其中,发送模块用于执行实现第二方面所述的文本检测装置的发送功能,接收模块用于执行实现第二方面所述的文本检测装置的接收功能。
需要说明的是,第二方面所述的文本检测装置可以是终端设备或网络设备,也可以是可设置于终端设备或网络设备中的芯片(系统)或其他部件或组件,还可以是包含终端设备或网络设备的装置,本申请对此不做限定。
此外,第二方面所述的文件检测装置的技术效果可以参考第一方面所述的文本检测方法的技术效果,此处不再赘述。
第三方面,本申请实施例提供一种文本检测装置,包括:处理器和存储器;存储器用于存储计算机指令,当处理器执行该指令时,以使文本检测装置执行如本申请实施例第一方面的文本检测方法。
此外,第三方面的文本检测装置的技术效果可以参考第一方面的文本检测方法的技术效果,此处不再赘述。需要说明的是,第三方面的文本检测装置可以是终端设备或网络设备,也可以是可设置于终端设备或网络设备中的芯片(系统)或其他部件或组件,还可以是包含终端设备或网络设备的装置,本申请对此不做限定。
第四方面,提供一种文本检测装置。该文本检测装置包括:处理器,该处理器用于执行第一方面的实现方式所述的文本检测方法。
一种可能的设计方案中,第四方面所述的文本检测装置还可以包括收发器。该收发器可以为收发电路或接口电路。该收发器可以用于第四方面所述的文本检测装置与其他文本检测装置通信。
此外,第四方面所述的文本检测装置的技术效果可以参考第一方面所述的文本检测方法的技术效果,此处不再赘述。
第五方面,提供一种文本检测装置。该文本检测装置包括:处理器,该处理器与存储器耦合,该处理器用于执行存储器中存储的计算机程序,以使得该文本检测装置执行第一方面所述的文本检测方法。
此外,第五方面所述的文本检测装置的技术效果可以参考第一方面实现方式所述的文本检测方法的技术效果,此处不再赘述。
第六方面,提供一种文本检测装置,包括:处理器和存储器;该存储器用于存储计算机程序,当该处理器执行该计算机程序时,以使该文本检测装置执行第一方面所述的文本检测方法。
一种可能的设计方案中,第六方面所述的文本检测装置还可以包括收发器。该收发器可以为收发电路或接口电路。该收发器可以用于第六方面所述的文本检测装置与其他文本检测装置通信。
此外,第六方面所述的文本检测装置的技术效果可以参考第一方面所述的文本检测方法的技术效果,此处不再赘述。
第七方面,提供一种文本检测装置,包括:处理器;所述处理器用于与存储器耦合,并读取存储器中的计算机程序之后,根据该计算机程序执行如第一方面所述的文本检测方法。
一种可能的设计方案中,第七方面所述的文本检测装置还可以包括收发器。该收发器可以为收发电路或接口电路。该收发器可以用于第七方面所述的文本检测装置与其他文本检测装置通信。
在本申请中,第七方面所述的文本检测装置可以为第一方面中的终端设备或网络设备,或者可设置于该终端设备或网络设备中的芯片(系统)或其他部件或组件,或者包含该终端设备或网络设备的装置。
此外,第七方面所述的文本检测装置的技术效果可以参考第一方面所述的文本检测方法的技术效果,此处不再赘述。
第八方面,本申请实施例提供一种文本检测装置,用于执行如第一方面所述的文本检测方法。
在本申请中,第八方面所述的文本检测装置可以为终端设备或网络设备,或者可设置于该终端设备或网络设备中的芯片(系统)或其他部件或组件,或者包含该终端设备或网络设备的装置。
应理解,第八方面所述的文本检测装置包括实现上述第一方面所述的文本检测方法相应的模块、单元、或手段(means),该模块、单元、或手段可以通过硬件实现,软件实现,或者通过硬件执行相应的软件实现。该硬件或软件包括一个或多个用于执行上述文本检测方法所涉及的功能的模块或单元。
此外,第八方面所述的文本检测装置的技术效果可以参考第一方面中所述的文本检测方法的技术效果,此处不再赘述。
第九方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质包括计算机程序或指令,当计算机程序或指令在计算机上运行时,使得计算机执行如本申请实施例第一方面的文本检测方法。
此外,第九方面的计算机可读存储介质的技术效果可以参考第一方面的文本检测方法的技术效果,此处不再赘述。
第十方面,本申请实施例提供一种计算机程序产品,计算机程序产品包括:计算机程序或指令,当计算机程序或指令在计算机上运行时,使得计算机执行如本申请实施例第一方面的文本检测方法。
此外,第十方面的计算机程序产品的技术效果可以参考第一方面的文本检测方法的技术效果,此处不再赘述。
附图说明
图1为本申请实施例提供的手机的架构示意图;
图2为本申请实施例提供的文本检测方法的流程示意图;
图3为本申请实施例提供的确定出最优匹配路径的过程示意图之一;
图4为本申请实施例提供的确定出最优匹配路径的过程示意图之二;
图5为本申请实施例提供的确定出最优匹配路径的过程示意图之三;
图6为本申请实施例提供的确定出最优匹配路径的过程示意图之四;
图7为本申请实施例提供的确定出最优匹配路径的过程示意图之五;
图8为本申请实施例提供的文本检测装置的结构示意图之一;
图9为本申请实施例提供的文本检测装置的结构示意图之二。
具体实施方式
下面介绍本申请实施例所涉及的技术术语。
1、反转词:反义词或者带有反义副词的词语。
2、Word2vec模型:一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。
3、表征变换的双向编码器BERT(bidirectional encoder representations fromtransformers,BERT)模型:为一个Word2Vec的替代者之一,使用Transformer的结构将已经走向瓶颈期的Word2Vec带向了一个新的方向,其在NLP(Natural Language Processing,NLP)领域的11个方向大幅刷新了精度,开源了多种语言的源码和模型。
4、多语言无监督和有监督嵌入模型MUSE(multilingual unsupervised andsupervised embeddings,Muse):为一种多语言词向量的python库,可生成多语言词向量和大规模高质量的双语词典,在多语言词向量对齐提供较大帮助。
5、匈牙利算法:为一种在多项式时间内求解任务分配问题的组合优化算法,并推动了后来的原始对偶方法。具体原理为从二分图中找出一条路径来,让路径的起点和终点都是还没有匹配过的点,并且路径经过的连线是一条没被匹配、一条已经匹配过,再下一条又没匹配这样交替地出现。找到这样的路径后,显然路径里没被匹配的连线比已经匹配了的连线多一条,于是修改匹配图,把路径里所有匹配过的连线去掉匹配关系,把没有匹配的连线变成匹配的,这样匹配数就比原来多1个,不断执行上述操作,直到找不到这样的路径为止。
6、线性规划(Linear programming,LP):是运筹学中研究较早、发展较快、应用广泛、方法较成熟的一个重要分支,它是辅助人们进行科学管理的一种数学方法。研究线性约束条件下线性目标函数的极值问题的数学理论和方法。
7、余弦相似度:余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。两个向量之间的角度的余弦值,确定两个向量是否大致指向的方向的差距。两个向量的夹角是0度角时,余弦值为1;两个向量夹角为90°时,余弦值为0;两个向量指向完全相反的方向时,余弦值为-1。因此,可以通过两个向量之间的角度的余弦值,确定两个向量之间的相似度。两个向量间的余弦值可以通过使用欧几里得点积公式求出:
其中,Ai,Bi,分别代表向量A和B的各分量。
8、皮尔森相关系数,用来衡量两个向量是否在一条线上面,它用来衡量定距变量间的线性关系。相关系数的绝对值越大,相关性越强:相关系数越接近于1或-1,相似度越强,相关系数越接近于0,相似度越弱,从而可以根据相关系数的大小,确定两个向量之间的相似度。
9、欧里几德距离:指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。可以理解地,两个向量之间的距离越短,说明二者越相似。
下面将结合附图,对本申请中的技术方案进行描述。
本申请实施例的技术方案可以应用于终端设备或网络设备。另外,本申请将围绕可包括多个设备、组件、模块等的系统来呈现各个方面、实施例或特征。应当理解和明白的是,各个系统可以包括另外的设备、组件、模块等,并且/或者可以并不包括结合附图讨论的所有设备、组件、模块等。此外,还可以使用这些方案的组合。
另外,在本申请实施例中,“示例地”、“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用示例的一词旨在以具体方式呈现概念。
本申请实施例中,有时候下标如W1可能会笔误为非下标的形式如W1,在不强调其区别时,其所要表达的含义是一致的。
本申请实施例描述的业务场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着网络架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
该终端设备也可以称为用户装置、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置。本申请的实施例中的终端设备可以是手机(mobile phone)、平板电脑(Pad)、带无线收发功能的电脑、虚拟现实(virtual reality,VR)终端设备、增强现实(augmented reality,AR)终端设备、工业控制(industrial control)中的无线终端、无人驾驶(self driving)中的无线终端、远程医疗(remote medical)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端、车载终端、具有终端功能的RSU等。本申请的终端设备还可以是作为一个或多个部件或者单元而内置于车辆的车载模块、车载模组、车载部件、车载芯片或者车载单元,车辆通过内置的所述车载模块、车载模组、车载部件、车载芯片或者车载单元可以实施本申请提供的文本检测方法。
其中,上述网络设备为位于网络侧,且具有无线收发功能的设备或可设置于该设备的芯片或芯片系统。该网络设备包括但不限于:在线翻译服务、企业后台服务等(图中未示出)。
应当指出的是,本申请实施例中的方案还可以应用于其他终端设备或网络设备中,相应的名称也可以用其他终端设备或网络设备中的对应功能的名称进行替代。
如图1所示,本申请实施例中的终端设备可以为手机100。下面以手机100为例对实施例进行具体说明。应该理解的是,图示手机100仅是上述终端的一个范例,并且手机100可以具有比图中所示出的更多的或者更少的部件,可以组合两个或更多的部件,或者可以具有不同的部件配置。
如图1所示,手机100具体可以包括:处理器101、射频(radio frequency,RF)电路102、存储器103、触摸屏104、蓝牙装置105、一个或多个传感器106、无线保真(wirelessfidelity,Wi-Fi)装置107、定位装置108、音频电路109、外设接口210以及电源系统111等部件。这些部件可通过一根或多根通信总线或信号线(图2中未示出)进行通信。本领域技术人员可以理解,图2中示出的硬件结构并不构成对手机的限定,手机100可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图1对手机100的各个部件进行具体的介绍:
处理器101是手机100的控制中心,利用各种接口和线路连接手机100的各个部分,通过运行或执行存储在存储器103内的应用,以及调用存储在存储器103内的数据,执行手机100的各种功能和处理数据。在本申请一些实施例中,上述处理器101还可以包括指纹验证芯片,用于对采集到的指纹进行验证。
射频电路102可用于在收发信息或通话过程中,无线信号的接收和发送。特别地,射频电路102可以将基站的下行数据接收后,给处理器101处理;另外,将涉及上行的数据发送给基站。通常,射频电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频电路102还可以通过无线通信和其他设备通信。所述无线通信可以使用任一无线通信标准或协议,包括但不限于全球移动通信系统、通用分组无线服务、码分多址、宽带码分多址、长期演进、电子邮件、短消息服务等。
存储器103用于存储应用以及数据,处理器101通过运行存储在存储器103的应用以及数据,执行手机100的各种功能以及数据处理。存储器103主要包括存储程序区以及存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用(比如声音播放功能、图像播放功能等);存储数据区可以存储根据使用手机100时所创建的数据(比如音频数据、电话本等)。此外,存储器103可以包括高速随机存取存储器(ramdom access memory,RAM),还可以包括非易失存储器,例如磁盘存储器件、闪存器件或其他易失性固态存储器件等。存储器103可以存储各种操作系统,例如,苹果公司所开发的操作系统,谷歌公司所开发的操作系统等。上述存储器103可以是独立的,通过上述通信总线与处理器101相连接;存储器103也可以和处理器101集成在一起。
触摸屏104具体可以包括触控板104-1和显示器104-2。
其中,触控板104-1可采集手机100的用户在其上或附近的触摸事件(比如用户使用手指、触控笔等任何适合的物体在触控板104-1上或在触控板104-1附近的操作),并将采集到的触摸信息发送给其他器件(例如处理器101)。其中,用户在触控板104-1附近的触摸事件可以称之为悬浮触控;悬浮触控可以是指,用户无需为了选择、移动或拖动目标(例如控件等)而直接接触触控板,而只需用户位于终端附近以便执行所想要的功能。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型来实现触控板104-1。
显示器(也称为显示屏)104-2可用于显示由用户输入的信息或提供给用户的信息以及手机100的各种菜单。可以采用液晶显示器、有机发光二极管等形式来配置显示器104-2。触控板104-1可以覆盖在显示器104-2之上,当触控板104-1检测到在其上或附近的触摸事件后,传送给处理器101以确定触摸事件的类型,随后处理器101可以根据触摸事件的类型在显示器104-2上提供相应的视觉输出。虽然在图1中,触控板104-1与显示屏104-2是作为两个独立的部件来实现手机100的输入和输出功能,但是在某些实施例中,可以将触控板104-1与显示屏104-2集成而实现手机100的输入和输出功能。可以理解的是,触摸屏104是由多层的材料堆叠而成,本申请实施例中只展示出了触控板(层)和显示屏(层),其他层在本申请实施例中不予记载。另外,触控板104-1可以以全面板的形式配置在手机100的正面,显示屏104-2也可以以全面板的形式配置在手机100的正面,这样在手机的正面就能够实现无边框的结构。
另外,手机100还可以具有指纹识别功能。例如,可以在手机100的背面(例如后置摄像头的下方)配置指纹识别器212,或者在手机100的正面(例如触摸屏104的下方)配置指纹识别器212。又例如,可以在触摸屏104中配置指纹采集器件212来实现指纹识别功能,即指纹采集器件212可以与触摸屏104集成在一起来实现手机100的指纹识别功能。在这种情况下,该指纹采集器件212配置在触摸屏104中,可以是触摸屏104的一部分,也可以以其他方式配置在触摸屏104中。本申请实施例中的指纹采集器件212的主要部件是指纹传感器,该指纹传感器可以采用任何类型的感测技术,包括但不限于光学式、电容式、压电式或超声波传感技术等。
手机100还可以包括蓝牙装置105,用于实现手机100与其他短距离的终端设备(例如手机、智能手表等)之间的数据交换(例如,收发译文文本和原文文本)。本申请实施例中的蓝牙装置可以是集成电路或者蓝牙芯片等。
手机100还可以包括至少一种传感器106,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节触摸屏104的显示器的亮度,接近传感器可在手机100移动到耳边时,关闭显示器的电源。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机100还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
Wi-Fi装置107,用于为手机100提供遵循Wi-Fi相关标准协议的网络接入,手机100可以通过Wi-Fi装置107接入到Wi-Fi接入点,进而帮助用户收发译文文本、原文文本,同时它为用户提供无线的宽带互联网访问。在其他一些实施例中,该Wi-Fi装置107也可以作为Wi-Fi无线接入点,可以为其他终端提供Wi-Fi网络接入。
定位装置108,用于为手机100提供地理位置。可以理解的是,该定位装置108具体可以是全球定位系统(global positioning system,GPS)或北斗卫星导航系统、俄罗斯GLONASS等定位系统的接收器。定位装置108在接收到上述定位系统发送的地理位置后,将该信息发送给处理器101进行处理,或者发送给存储器103进行保存。在另外的一些实施例中,该定位装置108还可以是辅助全球卫星定位系统(assisted global positioningsystem,AGPS)的接收器,AGPS系统通过作为辅助服务器来协助定位装置108完成测距和定位服务,在这种情况下,辅助定位服务器通过无线通信网络与终端设备例如手机100的定位装置108(即GPS接收器)通信而提供定位协助。在另外的一些实施例中,该定位装置108也可以是基于Wi-Fi接入点的定位技术。由于每一个Wi-Fi接入点都有一个全球唯一的媒体介入控制(media cccess control,MAC)地址,终端设备在开启Wi-Fi的情况下即可扫描并收集周围的Wi-Fi接入点的广播信号,因此可以获取到Wi-Fi接入点广播出来的MAC地址;终端设备将这些能够标示Wi-Fi接入点的数据(例如MAC地址)通过无线通信网络发送给位置服务器,由位置服务器检索出每一个Wi-Fi接入点的地理位置,并结合Wi-Fi广播信号的强弱程度,计算出该终端设备的地理位置并发送到该终端设备的定位装置108中。
音频电路109、扬声器213、麦克风214可提供用户与手机100之间的音频接口。音频电路109可将接收到的音频数据转换后的电信号,传输到扬声器213,由扬声器213转换为声音信号输出;另一方面,麦克风214将收集的声音信号转换为电信号,由音频电路109接收后转换为音频数据,再将音频数据输出至RF电路102以发送给比如另一手机,或者将音频数据输出至存储器103以便进一步处理。
外设接口210,用于为外部的输入/输出设备(例如键盘、鼠标、外接显示器、外部存储器、用户识别模块卡等)提供各种接口。例如通过通用串行总线(universal serial bus,USB)接口与鼠标连接,通过用户识别模块卡卡槽上的金属触点与电信运营商提供的用户识别模块卡(subscriber identification module,SIM)卡进行连接。外设接口210可以被用来将上述外部的输入/输出外围设备耦接到处理器101和存储器103。同时,用户可以通过外设接口210输入译文文本和原本文本。
手机100还可以包括给各个部件供电的电源装置211(比如电池和电源管理芯片),电池可以通过电源管理芯片与处理器101逻辑相连,从而通过电源装置211实现管理充电、放电、以及功耗管理等功能。
下面将结合图2-图7对本申请实施例提供的文本检测方法进行具体阐述。
示例性地,图1为本申请实施例提供的文本检测方法的流程示意图一。该文本检测方法可以适用于上述实施例中的终端设备或网络设备,如手机100或在线翻译服务器(图1中未示出)。请参阅图2,该文本检测方法包括:
S201,根据原文文本对应的原文词向量集合中的元素与译文文本对应的译文词向量集合的中的元素之间的匹配结果和第一匹配阈值,生成词对齐结果。
其中,词对齐结果包括词向量对集合,词向量对集合包括一一对应的原文词向量集合中的元素、译文词向量集合中的元素组成的词向量对。需要说明的是,用户可以将原文文本、译文文本录入终端设备,终端设备可以执行S201及其下述的S202、S203等步骤。
具体地,原文文本是指作为被翻译对象进行翻译的文本,译文文本是指对原文文本翻译后的文本。由于终端设备只能对向量进行处理,因此,需要将原文文本、译文文本均预先处理为词向量集合。例如,可以将原文文本、译文文本分别输入至word2vec模型或BERT模型,word2vec模型或BERT模型可以将原文文本处理为原文词向量集合,或将译文文本分别处理为译文词向量集合。word2vec模型或BERT模型将文本处理为词向量的过程可以参考现有技术,在此不多做赘述。需要说明的是,对于原文文本或译文文本中不可识别的词语(如生僻词汇,网络新词等),可以将不可识别的词语处理为符号“[UNK]”。再者,原文文本或译文文本中的词语被处理为词向量后,每个词向量的维度可以为但不限于3072维。
具体地,例如,原文文本为“无法去检索新版本详细信息”,经word2vec模型或BERT模型处理后的原文词向量集合为“[CLS],无法,去,检索,新,版本,详细信息,[SEP]”。再例如,译文文本为“Unable to retrieve new version details”,经word2vec模型或BERT模型处理后的译文词向量集合为“[CLS],unable,to,ret,##rie,##ve,new,version,details,[SEP]”,其中,“[CLS]”为开始符、“[SEP]”为结束符,“#”为通配符。其中,对于长度较大、存在前后缀的词语,可以拆分为多个向量,如上述的单词“retrieve”被处理并拆分为“ret”、“rie”、“ve”三个词向量。其中,词向量“retrieve”的向量值为“ret”、“rie”、“ve”三个向量的平均值,如,“ret”、“rie”、“ve”的向量值分别为A1、A2、A3,则“retrieve”的向量值为(A1+A2+A3)/3,其中,一个词语的词向量对应一个元素。
基于上述,S201的具体执行方式可以为:从原文词向量集合“[CLS],无法,去,检索,新,版本,详细信息,[SEP]”中选择一个元素,从译文词向量集合中“[CLS],unable,to,ret,##rie,##ve,new,version,details,[SEP]”选择一个元素进行匹配,并根据匹配结果与第一匹配阈值的大小关系,确定是否选择为待对齐词向量对。等原文词向量集合“[CLS],无法,去,检索,新,版本,详细信息,[SEP]”中的元素,与译文词向量集合中“[CLS],unable,to,ret,##rie,##ve,new,version,details,[SEP]”中的元素匹配完毕后,根据得到的所有的待对齐词向量对生成词对齐结果。需要说明的是,在词对齐结果中,原文词向量集合“[CLS],无法,去,检索,新,版本,详细信息,[SEP]”中的元素与译文词向量集合中“[CLS],unable,to,ret,##rie,##ve,new,version,details,[SEP]”中的元素存在一一对应关系(词对齐结果也可能包含未对齐的元素)。
S202:确定词向量对集合中属于译文词向量集合的每个元素对应的译文词语,以及译文词语对应的第一原文词语。
基于上述,假设词向量对集合为(无法,Unable)、(去,to)、(检索,retrieve)、(新,new)、(版本,version)、(详细信息,details),则确定的属于译文词向量集合的每个元素对应的译文词语为“Unable to retrieve new version details”。确定第一原文词语的方式可以为:利用翻译模型将“Unable to retrieve new version details”中的每个元素翻译回与原文文本的语言类型相同的第一原文词语(本申请中为翻译回中文词语),如翻译回的结果为“不能去搜索版本详细内容”。具体地,上述的翻译模型可以为但不限于多语言无监督和有监督嵌入模型MUSE。
S203:根据译文词语对应的原文文本中的第二原文词语与第一原文词语关联的近义词集合的归属关系,确定第一文本检测结果。
基于上述,例如,从原文文本“无法去检索新版本详细信息”中提取一个第二原文词语“无法”,则确定“无法”与“不能”关联的近义词集合(无法、不行、无力)的归属关系,确定第一文本检测结果;再例如,从原文文本“无法去检索新版本详细信息”中提取一个第二原文词语“检索”,则确定“检索”与“搜索”关联的近义词集合(检索、查询、搜寻、查找)的归属关系,确定第一文本检测结果;以此类推,直到根据“详细信息”确定第一文本检测结果为止。
一种可能的设计中,第一文本检测结果可以包括:第五文本检测结果或第六文本检测结果。其中,
第五文本检测结果,表征原文文本中的第二原文词语属于对应的第一原文词语关联的近义词集合。在第二原文词语属于对应的第一原文词语关联的近义词集合的情况下,说明第二原文词语对应的译文词语翻译正常。基于上述,例如,第二原文词语“无法”归属于第一原文词语“不能”关联的近义词集合(无法、不行、无力),则说明第二原文词语“无法”对应的译文词语“Unable”翻译正常。
第六文本检测结果,表征原文文本中的第二原文词语不属于对应的第一原文词语关联的近义词集合。
在第二原文词语不属于对应的第一原文词语关联的近义词集合的情况下,说明第二原文词语对应的译文词语翻译异常。
基于本申请实施例提供的文本检测方法,通过将原文文本中的原文词语与译文文本中的译文词语对齐,然后将译文词语翻译回原文词语,找到翻译回的原文词语关联的近义词集合,并根据原文文本中的原文词语与近义词集合的归属关系,确定文本检测结果;无需语言专家逐一地比对,提高了检测的效率,同时检测结果也不依赖于语言专家的专注度与细致程度,提高了检测的精确度。
一种可能的设计方式中,S201可以包括:
步骤1:将原文词向量集合中的每个元素与译文词向量集合中的每个元素相似度比对。
例如,取出原文词向量集合“[CLS],无法,去,检索,新,版本,详细信息,[SEP]”中的“无法”与“Unable to retrieve new version details”中每个元素逐一的进行相似度比对;然后取出原文词向量集合“[CLS],无法,去,检索,新,版本,详细信息,[SEP]”中的“去”与“Unable to retrieve new version details”中每个元素进行逐一的相似度比对;以此类推,直到原文词向量集合“[CLS],无法,去,检索,新,版本,详细信息,[SEP]”中的“详细信息”与“Unable to retrieve new version details”中每个元素逐一的进行相似度比对完毕。
另外,原文文本对应的原文词向量集合中的元素与译文文本对应的译文词向量集合的中的元素之间的匹配方式(即相似度比对方式)为但不限于:余弦相似度匹配或皮尔森相关系数匹配或欧里几德距离匹配。其中,以余弦相似度为例,计算方式为:
其中,xi为原文词向量集合中的元素,yi为译文词向量集合的中的元素,similarity为余弦相似度。需要说明的是,余弦相似度越大,二者相似度越高;皮尔森相关系数的绝对值越大,二者的相似度越高;欧里几德距离越小,二者相似度越高。
步骤2:根据相似度高于第一匹配阈值的原文词向量集合中的元素、译文词向量集合的中的元素,构建待对齐词向量对集合。
对于相似度高于第一匹配阈值的原文词向量集合中的元素、译文词向量集合的中的元素而言,译文词向量集合的中的元素为原文词向量集合中的元素翻译的译词的概率很高。因此,可以将相似度高于第一匹配阈值的原文词向量集合中的元素、译文词向量集合的中的元素构建待对齐词向量对,由此类推,可以根据获得的所有待对齐词向量对构建词向量对集合。
其中,第一匹配阈值的可以根据实际需求而定,例如,第一匹配阈值可以为但不限于20%、30%、40%等,在此不做限定。
步骤3:根据词向量对齐算法,从待对齐词向量对集合中提取总相似度最高的待对齐词向量子集作为词向量对集合。
其中,词向量对齐算法可以为但不限于匈牙利算法或线性规划算法。下面针对词向量对齐算法采用匈牙利算法为例说明确定词向量对集合的过程。
具体过程为:在相似度匹配结果表征相似度大于设定的匹配阈值的原文词向量集合中的元素、译文词向量集合的中的元素的之间生成映射路径,然后将多个映射路径,分别确定为待选择路径。其中,每个待选择路径均关联有原文词向量集合中的元素、译文词向量集合的中的元素(即关联有词向量对);根据匈牙利算法从多个待选择路径中,确定出最优匹配路径;将最优匹配路径关联的词向量对集合作为词对齐结果。
进一步地,上述的根据匈牙利算法从多个待选择路径中,确定出最优匹配路径的过程为:
将相似度小于设定的匹配阈值的原文词向量集合中的元素、译文词向量集合的中的元素之间的多个映射路径,分别确定为多个待选择路径。如图3所示,假设相似度小于设定的匹配阈值的原文词向量集合中的元素分别为(x1,x2,x3,x4,x5,x6)、译文词向量集合中的元素分别为(y1,y2,y3,y4,y5,y6),则(x1,x2,x3,x4,x5,x6)与(y1,y2,y3,y4,y5,y6)之间的多条连线表征上述的映射路径。
如图4所示,可以将任意一条待选择路径,确定为匹配路径,如确定(x1,y1)之间的待选择路径为匹配路径(图4中加黑线段即为确定的匹配路径)。
选择一个不属于匹配路径的原文词向量集合中的元素,判断是否可以走交替路径且目标路径是否包含目标集合中的元素;其中,交替路径是指匹配路径、非匹配路径交替出现的路径,目标路径为原文词向量集合中的元素关联的待选择路径,目标集合为不属于匹配路径的译文词向量集合。
如果不可以走交替路径且目标路径未包含目标集合的中的元素,则将当前的匹配路径作为最优匹配路径。
如果不可以走交替路径且目标路径包含不属于目标集合中的元素,则选择一个包含有原文词向量集合中的元素的待选择路径,将先前的匹配路径及当前选择的待选择路径的集合作为新的匹配路径,返回执行选择一个不属于匹配路径的原文词向量集合中的元素,判断是否可以走交替路径的步骤。
当选择到x2时,由于不存在交替路径,且原文词向量集合中的元素关联的待选择路径包含不属于匹配路径(x1,y1)的译文词向量集合的中的元素(x2,x3,x4,x5,x6)。因此,可以选择(x2,y2)之间的待选择路径为匹配路径,如图5所示,(x2,y2)之间的待选择路径被加粗。然后,执行选择一个不属于匹配路径的原文词向量集合中的元素,例如选择到x3,判断是否可以走交替路径。
如果可以走交替路径,则走交替路径;此时存在交替路径(x3,y1)-(x1,y1)-(x1,y2)-(x2,y2)-(x2,y5),则走路径(x3,y1)-(x1,y1)-(x1,y2)-(x2,y2)-(x2,y5)。判断是否途经另一个不属于匹配路径的译文词向量集合的中的元素;如果途经另一个不属于匹配路径的译文词向量集合的中的元素,则将当前经过的路径确定为增广路径,并更新匹配路径为增广路径与先前的匹配路径的差集。
上述路径(x3,y1)-(x1,y1)-(x1,y2)-(x2,y2)-(x2,y5)途经y5,y5为不属于匹配路径的译文词向量集合的中的元素,则确定路径(x3,y1)-(x1,y1)-(x1,y2)-(x2,y2)-(x2,y5)为增广路径。将增广路径减去先前的匹配路径(x1,y1)、(x2,y2),更新匹配路径为(x3,y1)-(x1,y2)-(x2,y5),如图6所示,加粗部分为更新后的匹配路径。
判断是否还存在不属于当前的匹配路径的原文词向量集合中的元素;如果存在,则返回执行选择一个不属于匹配路径的原文词向量集合中的元素,判断是否可以走交替路径且原文词向量集合中的元素关联的待选择路径是否包含不属于匹配路径的译文词向量集合的中的元素的步骤;图6中还存在x4、x5、x6为不属于当前的匹配路径的原文词向量集合中的元素。因此,返回执行选择一个不属于匹配路径的原文词向量集合中的元素,判断是否可以走交替路径且原文词向量集合中的元素关联的待选择路径是否包含不属于匹配路径的译文词向量集合的中的元素的步骤,按照前述的方式执行,如图7所示,最终得到的匹配路径为(x3,y1)-(x1,y2)-(x2,y5)-(x4,x3)-(x5,y4)。另外,基于上述,如果不存在不属于当前的匹配路径的原文词向量集合中的元素,则将当前的匹配路径确定为最优匹配路径。
一种可能的设计中,如图2所示,在S203之前,所述方法还可以包括:
S203-1:根据多语言无监督和有监督嵌入MUSE算法,将译文词语对应的第一原文词语处理为第一词向量。
多语言无监督和有监督嵌入MUSE算法将译文词语处理为第一词向量的过程可以参考现有技术,在此不再多做赘述。
S203-2:将第一词向量与预存储的目标语言词典集合中的第二词向量相似度比对。
第一词向量与预存储的目标语言词典集合中的第二词向量相似度比对的方式可以为但不限于:余弦相似度匹配或皮尔森相关系数匹配或欧里几德距离匹配。需要说明的是,余弦相似度越大,二者相似度越高;皮尔森相关系数的绝对值越大,二者的相关性越高;欧里几德距离越小,二者相似度越高。
S203-3:将相似度高于第二匹配阈值的第二词向量对应的词语集合,确定为与译文词语对应的第一原文词语关联的近义词集合。
其中,第二匹配阈值可以为但不限于20%、30%、40%等。第一词向量与预存储的目标语言词典集合中的第二词向量相似度越高,说明二者的含义越相近,因此,在第一词向量与预存储的目标语言词典集合中的第二词向量相似度高于预设第二匹配阈值时,可以确定第一词向量对应的第一原文词语与预存储的目标语言词典集合中的第二词向量对应的词语,二者互为近义词。当预存储的目标语言词典集合包括多个相似度高于第二匹配阈值的第二词向量时,则将多个第二词向量对应的词语集合,确定为与译文词语对应的第一原文词语关联的近义词集合。
一种可能的设计中,词对齐结果还可以包括原文词向量集合中未包含于词向量对集合的词向量子集。在进行词对齐匹配的过程中,会存在没有匹配上的原文词向量集合中的元素,则没有匹配上的原文词向量集合中的元素不会包含于词向量对集合,从而可以根据没有匹配上的原文词向量集合中的元素构建上述的词向量子集。所述方法还可以包括:
根据词向量子集中的元素对应的第三原文词语与反义副词集合之间的归属关系以及第一文本检测结果,确定第二文本检测结果。
由于副词与词语之间的相互作用,会使得副词与词语构成的短语的含义与构成短语的词语的含义发生变化,因此,结合词向量子集中的元素对应的第三原文词语与第一文本检测结果进行进一步地分析,可以得到更为精确的第二文本检测结果。
进一步地,第二文本检测结果可以包括第三文本检测结果或第四文本检测结果。其中,
第三文本检测结果,表征词向量子集中的元素对应的第三原文词语归属于反义副词集合且第一文本检测结果未出现语义反转。
词向量子集中的元素对应的第三原文词语归属于反义副词集合且第一文本检测结果未出现语义反转,说明第二原文词语对应的译文词语翻译异常。
例如,如果原文文本中的第二原文词语可以包括“我,不,喜欢,吃,西红柿”,译文文本为“I love eating tomatoes”,译文词语对应的第一原文词语可以包括“本人爱好吃番茄”,其中,词对齐结果为“我”与“本人”对齐,“喜欢”与“爱好”对齐,“吃”与“吃”对齐,“西红柿”与“番茄”对齐。从词对齐结果可以看出,第二原文词语“不”即为在进行词对齐匹配的过程中,没有匹配上的原文词向量集合中的元素(即词向量子集中的元素),显然,第二原文词语“不”归属于反义副词集合,而上述的第一文本检测结果未出现语义反转,则说明将原文文本“我,不,喜欢,吃,西红柿”翻译为“I love eating tomatoes”存在翻译异常。
第四文本检测结果,表征词向量子集中的元素对应的第三原文词语归属于预设的反义副词集合且第一文本检测结果出现语义反转;以及表征词向量子集中的元素对应的词语未归属于预设的反义副词集合。
例如,如果原文文本中的第二原文词语可以包括“我,不,喜欢,吃,西红柿”,译文文本为“I hate eating tomatoes”,译文词语对应的第一原文词语可以包括“本人讨厌吃番茄”,其中,词对齐结果为“我”与“本人”对齐,“喜欢”与“讨厌”对齐,“吃”与“吃”对齐,“西红柿”与“番茄”对齐。从词对齐结果可以看出,第二原文词语“不”即为在进行词对齐匹配的过程中,没有匹配上的原文词向量集合中的元素(即词向量子集中的元素),显然,第二原文词语“不”归属于反义副词集合,而上述的第一文本检测结果出现语义反转(“喜欢”相对于“讨厌”出现语义反转),则说明将原文文本“我,不,喜欢,吃,西红柿”翻译为“I hateeating tomatoes”翻译正常。
以上结合图2-图7详细说明了本申请实施例提供的文本检测方法。以下结合图8和图9详细说明用于执行本申请实施例提供的文本检测方法的文本检测装置。
请参阅图8,本申请实施例还提供一种文本检测装置800,该文本检测装置800可以执行上述方法实施例中的功能。本申请实施例中,文本检测装置800可以为一个独立的虚拟软件模块,也可以为集成于一个翻译软件中的虚拟软件模块,在此不做限定。需要说明的是,本申请实施例所提供的文本检测装置800,其基本原理及产生的技术效果和上述实施例相同,为简要描述,本实施例部分未提及之处,可参考上述的实施例中相应内容。所述装置800包括生成模块801、确定模块802。下面具体说明。
其中,生成模块801,用于根据原文文本对应的原文词向量集合中的元素与译文文本对应的译文词向量集合的中的元素之间的匹配结果和第一匹配阈值,生成词对齐结果。其中,词对齐结果包括词向量对集合,词向量对集合包括一一对应的原文词向量集合中的元素、译文词向量集合中的元素组成的词向量对。
确定模块802,用于确定词向量对集合中属于译文词向量集合的每个元素对应的译文词语,以及译文词语对应的第一原文词语。
确定模块802,还用于根据译文词语对应的原文文本中的第二原文词语与第一原文词语关联的近义词集合的归属关系,确定第一文本检测结果。
进一步地,如图8所示,生成模块801可以包括:获取单元、构建单元和词对齐单元。其中,
获取单元,用于获取原文词向量集合中的每个元素与译文词向量集合中的每个元素之间的第一相似度。
构建单元,用于根据第一相似度高于第一匹配阈值的原文词向量集合中的元素、译文词向量集合的中的元素,构建待对齐词向量对集合。
词对齐单元,用于根据词向量对齐算法,从待对齐词向量对集合中提取总相似度最高的待对齐词向量子集作为词向量对集合,其中,总相似度为待对齐词向量子集中的词向量对的第一相似度之和。
其中,词向量对齐算法可以为匈牙利算法或线性规划算法。
一种可能的设计方式中,如图8所示,生成模块801,还可以用于根据多语言无监督和有监督嵌入MUSE算法,将译文词语对应的第一原文词语处理为第一词向量。
确定模块802,还可以用于确定第一词向量与预存储的目标语言词典集合中的第二词向量之间的第二相似度。
确定模块802,还可以用于将第二相似度高于第二匹配阈值的第二词向量对应的词语集合,确定为与译文词语对应的第一原文词语关联的近义词集合。
一种可能的设计方式中,词对齐结果还可以包括原文词向量集合中未包含于词向量对集合的词向量子集。确定模块802,还可以用于根据词向量子集中的元素对应的第三原文词语与反义副词集合之间的归属关系以及第一文本检测结果,确定第二文本检测结果。
一种可能的设计方式中,第二文本检测结果可以包括第三文本检测结果或第四文本检测结果。其中,第三文本检测结果,表征词向量子集中的元素对应的第三原文词语归属于反义副词集合且第一文本检测结果未出现语义反转。第四文本检测结果,表征词向量子集中的元素对应的第三原文词语归属于预设的反义副词集合,且第一文本检测结果出现语义反转,以及表征词向量子集中的元素对应的第三原文词语未归属于预设的反义副词集合。
一种可能的设计方式中,第一文本检测结果可以包括:第五文本检测结果或第六文本检测结果。其中,第五文本检测结果,表征原文文本中的第二原文词语属于对应的第一原文词语关联的近义词集合。第六文本检测结果,表征原文文本中的第二原文词语不属于对应的第一原文词语关联的近义词集合。
一种可能的设计方式中,原文文本对应的原文词向量集合中的元素与译文文本对应的译文词向量集合的中的元素之间的匹配方式可以为如下之一:余弦相似度匹配、皮尔森相关系数匹配、或欧里几德距离匹配。
可以理解地,上述的生成模块801、确定模块802可以集成于一个模块,如处理模块(图8中未示出),也可以分别单独独立设置,在此不做限定。
可选地,文本检测装置800还可以包括存储模块(图8中未示出)。该存储模块存储有程序或指令。当处理模块执行该程序或指令时,使得文本检测装置800可以执行图2中的文本检测方法。
可选地,文本检测装置800还可以包括收发模块(图8中未示出)。其中,收发模块用于执行文本检测装置800的收发功能。例如,收发模块可以用于收发原文文本或译文文本。进一步地,收发模块可以包括接收模块和发送模块。其中,发送模块用于执行文本检测装置800的发送功能。接收模块用于执行文本检测装置800的接收功能。
此外,文本检测装置800可以参考上述方法实施例的技术效果,此处不再赘述。
示例性地,图9为本申请实施例提供的文本检测装置900的结构示意图二。该文本检测装置900可以是终端设备或网络设备,也可以是可设置于终端设备或网络设备的芯片(系统)或其他部件或组件。如图9所示,文本检测装置900可以包括处理器901。可选地,文本检测装置900还可以包括存储器902和/或收发器903。其中,处理器901与存储器902和收发器903耦合,如可以通过通信总线连接。
下面结合图9对文本检测装置900的各个构成部件进行具体的介绍:
其中,处理器901是文本检测装置900的控制中心,可以是一个处理器,也可以是多个处理元件的统称。例如,处理器901是一个或多个中央处理器(central processingunit,CPU),也可以是特定集成电路(application specific integrated circuit,ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路,例如:一个或多个微处理器(digital signal processor,DSP),或,一个或者多个现场可编程门阵列(fieldprogrammable gate array,FPGA)。
可选地,处理器901可以通过运行或执行存储在存储器902内的软件程序,以及调用存储在存储器902内的数据,执行文本检测装置900的各种功能。
在具体的实现中,作为一种实施例,处理器901可以包括一个或多个CPU,例如图9中所示出的CPU0和CPU1。
在具体实现中,作为一种实施例,文本检测装置900也可以包括多个处理器,例如图2中所示的处理器901和处理器904。这些处理器中的每一个可以是一个单核处理器(single-CPU),也可以是一个多核处理器(multi-CPU)。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
其中,存储器902用于存储执行本申请方案的软件程序,并由处理器901来控制执行,具体实现方式可以参考上述方法实施例,此处不再赘述。
可选地,存储器902可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory,EEPROM)、只读光盘(compactdisc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器902可以和处理器901集成在一起,也可以独立存在,并通过文本检测装置900的接口电路(图9中未示出)与处理器901耦合,本申请实施例对此不作具体限定。
收发器903,用于与其他文本检测装置之间的通信。例如,文本检测装置900为终端设备,收发器903可以用于与网络设备通信,或者与另一个终端设备通信。又例如,文本检测装置900为网络设备,收发器903可以用于与终端设备通信,或者与另一个网络设备通信。
可选地,收发器903可以包括接收器和发送器(图9中未单独示出)。其中,接收器用于实现接收功能,发送器用于实现发送功能。
可选地,收发器903可以和处理器901集成在一起,也可以独立存在,并通过文本检测装置900的接口电路(图9中未示出)与处理器901耦合,本申请实施例对此不作具体限定。
需要说明的是,图9中示出的文本检测装置900的结构并不构成对该文本检测装置的限定,实际的文本检测装置可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
此外,文本检测装置900的技术效果可以参考上述方法实施例所述的文本检测方法的技术效果,此处不再赘述。
本申请实施例还提供一种芯片系统,包括:处理器,所述处理器与存储器耦合,所述存储器用于存储程序或指令,当所述程序或指令被所述处理器执行时,使得该芯片系统实现上述任一方法实施例中的方法。
可选地,该芯片系统中的处理器可以为一个或多个。该处理器可以通过硬件实现也可以通过软件实现。当通过硬件实现时,该处理器可以是逻辑电路、集成电路等。当通过软件实现时,该处理器可以是一个通用处理器,通过读取存储器中存储的软件代码来实现。
可选地,该芯片系统中的存储器也可以为一个或多个。该存储器可以与处理器集成在一起,也可以和处理器分离设置,本申请并不限定。示例性的,存储器可以是非瞬时性处理器,例如只读存储器ROM,其可以与处理器集成在同一块芯片上,也可以分别设置在不同的芯片上,本申请对存储器的类型,以及存储器与处理器的设置方式不作具体限定。
示例性的,该芯片系统可以是现场可编程门阵列(field programmable gatearray,FPGA),可以是专用集成芯片(application specific integrated circuit,ASIC),还可以是系统芯片(system on chip,SoC),还可以是中央处理器(central processorunit,CPU),还可以是网络处理器(network processor,NP),还可以是数字信号处理电路(digital signal processor,DSP),还可以是微控制器(micro controller unit,MCU),还可以是可编程控制器(programmable logic device,PLD)或其他集成芯片。
本申请实施例提供一种文本检测系统。该文本检测系统包括上述一个或多个终端设备,和/或,一个或多个网络设备。
应理解,在本申请实施例中的处理器可以是中央处理单元(central processingunit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
还应理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的随机存取存储器(random accessmemory,RAM)可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
上述实施例,可以全部或部分地通过软件、硬件(如电路)、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系,但也可能表示的是一种“和/或”的关系,具体可参考前后文进行理解。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (22)
1.一种文本检测方法,其特征在于,包括:
根据原文文本对应的原文词向量集合中的元素与译文文本对应的译文词向量集合的中的元素之间的匹配结果和第一匹配阈值,生成词对齐结果,其中,所述词对齐结果包括词向量对集合,所述词向量对集合包括一一对应的所述原文词向量集合中的元素、所述译文词向量集合中的元素组成的词向量对;
确定所述词向量对集合中属于所述译文词向量集合的每个元素对应的译文词语,以及所述译文词语对应的第一原文词语;
根据所述译文词语对应的所述原文文本中的第二原文词语与所述第一原文词语关联的近义词集合的归属关系,确定第一文本检测结果。
2.根据权利要求1所述的文本检测方法,其特征在于,所述根据原文文本对应的原文词向量集合中的元素与译文文本对应的译文词向量集合的中的元素之间的匹配结果和第一匹配阈值,生成词对齐结果,包括:
获取所述原文词向量集合中的每个元素与所述译文词向量集合中的每个元素之间的第一相似度;
根据所述第一相似度高于所述第一匹配阈值的所述原文词向量集合中的元素、所述译文词向量集合的中的元素,构建待对齐词向量对集合;
根据词向量对齐算法,从所述待对齐词向量对集合中提取第二相似度最大的待对齐词向量子集作为所述词向量对集合,所述第二相似度为待对齐词向量子集中的词向量对的所述第一相似度的加权和。
3.根据权利要求2所述的文本检测方法,其特征在于,所述词向量对齐算法为匈牙利算法或线性规划算法。
4.根据权利要求1-3中任一项所述的文本检测方法,其特征在于,在所述根据所述译文词语对应的所述原文文本中的第二原文词语与所述第一原文词语关联的近义词集合的归属关系,确定第一文本检测结果之前,所述方法还包括:
根据多语言无监督和有监督嵌入MUSE算法,将所述译文词语对应的第一原文词语处理为第一词向量;
获取所述第一词向量与预存储的目标语言词典集合中的第二词向量之间的第三相似度;
将所述第三相似度高于第二匹配阈值的第二词向量对应的词语集合,确定为与所述译文词语对应的第一原文词语关联的近义词集合。
5.根据权利要求1所述的文本检测方法,其特征在于,所述词对齐结果还包括原文词向量集合中未包含于所述词向量对集合的词向量子集,所述方法还包括:
根据所述词向量子集中的元素对应的第三原文词语与反义副词集合之间的归属关系以及所述第一文本检测结果,确定第二文本检测结果。
6.根据权利要求5所述的文本检测方法,其特征在于,所述第二文本检测结果包括第三文本检测结果或第四文本检测结果;其中,
所述第三文本检测结果,表征词向量子集中的元素对应的第三原文词语归属于反义副词集合,且第一文本检测结果未出现语义反转;
所述第四文本检测结果,表征词向量子集中的元素对应的第三原文词语归属于预设的反义副词集合,且第一文本检测结果出现语义反转,以及表征词向量子集中的元素对应的第三原文词语未归属于预设的反义副词集合。
7.根据权利要求1所述的文本检测方法,其特征在于,所述第一文本检测结果包括:第五文本检测结果或第六文本检测结果;其中,
所述第五文本检测结果,表征所述原文文本中的第二原文词语属于对应的第一原文词语关联的近义词集合;
所述第六文本检测结果,表征所述原文文本中的第二原文词语不属于对应的第一原文词语关联的近义词集合。
8.根据权利要求1所述的文本检测方法,其特征在于,所述原文文本对应的原文词向量集合中的元素与所述译文文本对应的译文词向量集合的中的元素之间的匹配方式为如下之一:余弦相似度匹配、皮尔森相关系数匹配、或欧里几德距离匹配。
9.一种文本检测装置,其特征在于,包括:生成模块和确定模块;其中,
所述生成模块,用于根据原文文本对应的原文词向量集合中的元素与译文文本对应的译文词向量集合的中的元素之间的匹配结果和第一匹配阈值,生成词对齐结果,其中,所述词对齐结果包括词向量对集合,所述词向量对集合包括一一对应的所述原文词向量集合中的元素、所述译文词向量集合中的元素组成的词向量对;
所述确定模块,用于确定所述词向量对集合中属于所述译文词向量集合的每个元素对应的译文词语,以及所述译文词语对应的第一原文词语;
所述确定模块,还用于根据所述译文词语对应的所述原文文本中的第二原文词语与所述第一原文词语关联的近义词集合的归属关系,确定第一文本检测结果。
10.根据权利要求9所述的文本检测装置,其特征在于,所述生成模块包括:获取单元、构建单元和词对齐单元;其中,
所述获取单元,用于获取所述原文词向量集合中的每个元素与所述译文词向量集合中的每个元素之间的第一相似度;
所述构建单元,用于根据所述第一相似度高于所述第一匹配阈值的所述原文词向量集合中的元素、所述译文词向量集合的中的元素,构建待对齐词向量对集合;
所述词对齐单元,用于根据词向量对齐算法,从所述待对齐词向量对集合中提取总相似度最高的待对齐词向量子集作为所述词向量对集合,其中,所述总相似度为待对齐词向量子集中的词向量对的第一相似度之和。
11.根据权利要求10所述的文本检测装置,其特征在于,所述词向量对齐算法为匈牙利算法或线性规划算法。
12.根据权利要求9-11中任一项所述的文本检测装置,其特征在于,
所述生成模块,还用于根据多语言无监督和有监督嵌入MUSE算法,将所述译文词语对应的第一原文词语处理为第一词向量;
所述确定模块,还用于确定所述第一词向量与预存储的目标语言词典集合中的第二词向量之间的第二相似度;
所述确定模块,还用于将所述第二相似度高于第二匹配阈值的第二词向量对应的词语集合,确定为与所述译文词语对应的第一原文词语关联的近义词集合。
13.根据权利要求9所述的文本检测装置,其特征在于,所述词对齐结果还包括原文词向量集合中未包含于所述词向量对集合的词向量子集;
所述确定模块,还用于根据所述词向量子集中的元素对应的第三原文词语与反义副词集合之间的归属关系以及所述第一文本检测结果,确定第二文本检测结果。
14.根据权利要求13所述的文本检测装置,其特征在于,所述第二文本检测结果包括第三文本检测结果或第四文本检测结果,其中,
所述第三文本检测结果,表征词向量子集中的元素对应的第三原文词语归属于反义副词集合且第一文本检测结果未出现语义反转;
所述第四文本检测结果,表征词向量子集中的元素对应的第三原文词语归属于预设的反义副词集合,且第一文本检测结果出现语义反转,以及表征词向量子集中的元素对应的第三原文词语未归属于预设的反义副词集合。
15.根据权利要求9所述的文本检测装置,其特征在于,所述第一文本检测结果包括:第五文本检测结果或第六文本检测结果,其中,
所述第五文本检测结果,表征所述原文文本中的第二原文词语属于对应的第一原文词语关联的近义词集合;
所述第六文本检测结果,表征所述原文文本中的第二原文词语不属于对应的第一原文词语关联的近义词集合。
16.根据权利要求9所述的文本检测装置,其特征在于,所述原文文本对应的原文词向量集合中的元素与所述译文文本对应的译文词向量集合的中的元素之间的匹配方式为如下之一:余弦相似度匹配、皮尔森相关系数匹配、或欧里几德距离匹配。
17.一种文本检测装置,其特征在于,包括:处理器,所述处理器与存储器耦合;
所述处理器,用于执行所述存储器中存储的所述计算机程序,以使得所述文本检测装置执行如权利要求1-8中任一项所述的文本检测方法。
18.一种文本检测装置,其特征在于,包括:处理器和存储器;所述存储器用于存储计算机指令,当所述处理器执行该指令时,以使所述文本检测装置执行如权利要求1-8中任一项所述的文本检测方法。
19.一种文本检测装置,其特征在于,包括:处理器和接口电路;其中,
所述接口电路,用于接收代码指令并传输至所述处理器;
所述处理器用于运行所述代码指令以执行如权利要求1至8中任一项所述的方法。
20.一种文本检测装置,其特征在于,所述文本检测装置包括处理器和收发器,所述收发器用于所述文本检测装置和其他文本检测装置之间进行信息交互,所述处理器执行程序指令,用以执行如权利要求1-8中任一项所述的文本检测方法。
21.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括计算机程序或指令,当所述计算机程序或指令在计算机上运行时,使得所述计算机执行如权利要求1-8中任一项所述的文本检测方法。
22.一种计算机程序产品,其特征在于,所述计算机程序产品包括:计算机程序或指令,当所述计算机程序或指令在计算机上运行时,使得所述计算机执行如权利要求1-8中任一项所述的文本检测方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011053447.7A CN112257436B (zh) | 2020-09-29 | 2020-09-29 | 文本检测方法及装置 |
PCT/CN2021/118051 WO2022068568A1 (zh) | 2020-09-29 | 2021-09-13 | 文本检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011053447.7A CN112257436B (zh) | 2020-09-29 | 2020-09-29 | 文本检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112257436A true CN112257436A (zh) | 2021-01-22 |
CN112257436B CN112257436B (zh) | 2024-04-02 |
Family
ID=74234523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011053447.7A Active CN112257436B (zh) | 2020-09-29 | 2020-09-29 | 文本检测方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112257436B (zh) |
WO (1) | WO2022068568A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112817957A (zh) * | 2021-02-07 | 2021-05-18 | 广东省电信规划设计院有限公司 | 一种数据一致性的智能检查方法及装置 |
WO2022068568A1 (zh) * | 2020-09-29 | 2022-04-07 | 华为技术有限公司 | 文本检测方法及装置 |
CN114997185A (zh) * | 2021-10-27 | 2022-09-02 | 荣耀终端有限公司 | 翻译方法、介质、程序产品及电子设备 |
CN116048678A (zh) * | 2022-06-06 | 2023-05-02 | 荣耀终端有限公司 | 单词截断检测方法、装置和系统 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114997134B (zh) * | 2022-06-17 | 2023-06-06 | 平安科技(深圳)有限公司 | 文本对齐方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040172235A1 (en) * | 2003-02-28 | 2004-09-02 | Microsoft Corporation | Method and apparatus for example-based machine translation with learned word associations |
CN102456003A (zh) * | 2010-10-27 | 2012-05-16 | 王博 | 一种翻译结果的显示方法和设备 |
CN107766339A (zh) * | 2017-10-20 | 2018-03-06 | 语联网(武汉)信息技术有限公司 | 原译文对齐的方法及装置 |
CN110019668A (zh) * | 2017-10-31 | 2019-07-16 | 北京国双科技有限公司 | 一种文本检索方法及装置 |
CN110019670A (zh) * | 2017-10-31 | 2019-07-16 | 北京国双科技有限公司 | 一种文本检索方法及装置 |
CN111309869A (zh) * | 2020-02-28 | 2020-06-19 | 中国工商银行股份有限公司 | 实时文本流信息检索方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112257436B (zh) * | 2020-09-29 | 2024-04-02 | 华为技术有限公司 | 文本检测方法及装置 |
-
2020
- 2020-09-29 CN CN202011053447.7A patent/CN112257436B/zh active Active
-
2021
- 2021-09-13 WO PCT/CN2021/118051 patent/WO2022068568A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040172235A1 (en) * | 2003-02-28 | 2004-09-02 | Microsoft Corporation | Method and apparatus for example-based machine translation with learned word associations |
CN102456003A (zh) * | 2010-10-27 | 2012-05-16 | 王博 | 一种翻译结果的显示方法和设备 |
CN107766339A (zh) * | 2017-10-20 | 2018-03-06 | 语联网(武汉)信息技术有限公司 | 原译文对齐的方法及装置 |
CN110019668A (zh) * | 2017-10-31 | 2019-07-16 | 北京国双科技有限公司 | 一种文本检索方法及装置 |
CN110019670A (zh) * | 2017-10-31 | 2019-07-16 | 北京国双科技有限公司 | 一种文本检索方法及装置 |
CN111309869A (zh) * | 2020-02-28 | 2020-06-19 | 中国工商银行股份有限公司 | 实时文本流信息检索方法及系统 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022068568A1 (zh) * | 2020-09-29 | 2022-04-07 | 华为技术有限公司 | 文本检测方法及装置 |
CN112817957A (zh) * | 2021-02-07 | 2021-05-18 | 广东省电信规划设计院有限公司 | 一种数据一致性的智能检查方法及装置 |
CN112817957B (zh) * | 2021-02-07 | 2024-04-30 | 广东省电信规划设计院有限公司 | 一种数据一致性的智能检查方法及装置 |
CN114997185A (zh) * | 2021-10-27 | 2022-09-02 | 荣耀终端有限公司 | 翻译方法、介质、程序产品及电子设备 |
CN116048678A (zh) * | 2022-06-06 | 2023-05-02 | 荣耀终端有限公司 | 单词截断检测方法、装置和系统 |
CN116048678B (zh) * | 2022-06-06 | 2023-11-07 | 荣耀终端有限公司 | 单词截断检测方法、装置和系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2022068568A1 (zh) | 2022-04-07 |
CN112257436B (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112257436B (zh) | 文本检测方法及装置 | |
WO2021196981A1 (zh) | 语音交互方法、装置和终端设备 | |
US11138971B2 (en) | Using context to interpret natural language speech recognition commands | |
US10572594B2 (en) | Extracting domain-specific actions and entities in natural language commands recognized based on edition and recognition scores | |
CN110209784B (zh) | 消息交互方法、计算机设备及存储介质 | |
CN109902296B (zh) | 自然语言处理方法、训练方法及数据处理设备 | |
US20210056270A1 (en) | Electronic device and deep learning-based interactive messenger operation method | |
CN116415594A (zh) | 问答对生成的方法和电子设备 | |
CN111324699A (zh) | 语义匹配的方法、装置、电子设备及存储介质 | |
CN109543014B (zh) | 人机对话方法、装置、终端及服务器 | |
CN111159338A (zh) | 一种恶意文本的检测方法、装置、电子设备及存储介质 | |
CN111209377A (zh) | 基于深度学习的文本处理方法、装置、设备及介质 | |
CN105203121A (zh) | 在地理应用程序中动态地整合离线和在线建议 | |
CN110825863B (zh) | 一种文本对融合方法及装置 | |
US11556604B2 (en) | Electronic device and search keyword processing method thereof | |
CN110720104B (zh) | 一种语音信息处理方法、装置及终端 | |
US20200126550A1 (en) | Electronic device and method of providing dialog service based on electronic medical record | |
US20220284060A1 (en) | Question Answering Method and Apparatus Based on Knowledge Graph | |
US20230004988A1 (en) | Systems and methods for utilizing feedback data | |
CN113970971A (zh) | 基于触控笔的数据处理方法和装置 | |
EP4283489A1 (en) | Electronic device for providing search service, and operating method therefor | |
US20230120114A1 (en) | Electronic device and method for managing contacts thereof | |
CN114360528B (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
US20230315679A1 (en) | Method and electronic device for synchronizing handwriting | |
CN111414483B (zh) | 一种文档处理设备和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |