CN115964051A - 多语种词条检测方法、装置、计算机设备及存储介质 - Google Patents
多语种词条检测方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN115964051A CN115964051A CN202211713337.8A CN202211713337A CN115964051A CN 115964051 A CN115964051 A CN 115964051A CN 202211713337 A CN202211713337 A CN 202211713337A CN 115964051 A CN115964051 A CN 115964051A
- Authority
- CN
- China
- Prior art keywords
- entry
- language
- detection result
- semantic
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请属于数据检测技术领域,涉及一种多语种词条检测方法、装置、计算机设备及存储介质,方法包括:对工程代码文件进行扫描得到词条结构对象,它包括工程代码文件中的各词条标识以及各词条标识下的各语种标识,语种标识包括主语种标识和多个副语种标识;获取标准词条结构对象,并与词条结构对象进行比对,得到结构化检测结果;对于每个词条标识,对词条标识下主语种标识所对应的主语种文本与各副语种标识所对应的副语种文本进行语义分析,得到词条标识的词条语义检测结果,根据各词条标识的词条语义检测结果生成语义检测结果;根据结构化检测结果和语义检测结果生成多语种词条检测结果。本申请提高了多语种词条检测的效率以及准确性。
Description
技术领域
本申请涉及数据检测技术领域,尤其涉及一种多语种词条检测方法、装置、计算机设备及存储介质。
背景技术
伴随着一些应用程序或者项目的国际化推进,应用程序或者项目需要接入多种语言,以便为不同语言的用户提供服务。在应用程序或者项目的开发过程中,开发人员需要为出现的词条准备多种语言的表达。由于软件功能复杂、词条和语种数量众多等原因,工程代码文件可能存在词条缺失或者遗漏翻译等情况。由开发人员对大量词条进行逐一校对很容易出错,且速度较慢,导致软件开发效率底下。
发明内容
本申请实施例的目的在于提出一种多语种词条检测方法、装置、计算机设备及存储介质,以解决多语种词条检测效率和准确性较低的问题。
为了解决上述技术问题,本申请实施例提供一种多语种词条检测方法,采用了如下所述的技术方案:
获取待检测的工程代码文件;
对所述工程代码文件进行扫描得到词条结构对象,所述词条结构对象包括所述工程代码文件中的各词条标识以及所述各词条标识下的各语种标识,语种标识包括主语种的主语种标识和多个副语种的副语种标识;
获取预先建立的标准词条结构对象;
将所述词条结构对象与所述标准词条结构对象进行比对,得到结构化检测结果;
对于每个词条标识,对所述词条标识下所述主语种标识所对应的主语种文本与各副语种标识所对应的副语种文本进行语义分析,得到所述词条标识的词条语义检测结果,并根据所述各词条标识的词条语义检测结果生成语义检测结果;
根据所述结构化检测结果和所述语义检测结果生成多语种词条检测结果。
为了解决上述技术问题,本申请实施例还提供一种多语种词条检测装置,采用了如下所述的技术方案:
文件获取模块,用于获取待检测的工程代码文件;
文件扫描模块,用于对所述工程代码文件进行扫描得到词条结构对象,所述词条结构对象包括所述工程代码文件中的各词条标识以及所述各词条标识下的各语种标识,语种标识包括主语种的主语种标识和多个副语种的副语种标识;
标准获取模块,用于获取预先建立的标准词条结构对象;
对象比对模块,用于将所述词条结构对象与所述标准词条结构对象进行比对,得到结构化检测结果;
语义分析模块,用于对于每个词条标识,对所述词条标识下所述主语种标识所对应的主语种文本与各副语种标识所对应的副语种文本进行语义分析,得到所述词条标识的词条语义检测结果,并根据所述各词条标识的词条语义检测结果生成语义检测结果;
结果生成模块,用于根据所述结构化检测结果和所述语义检测结果生成多语种词条检测结果。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
获取待检测的工程代码文件;
对所述工程代码文件进行扫描得到词条结构对象,所述词条结构对象包括所述工程代码文件中的各词条标识以及所述各词条标识下的各语种标识,语种标识包括主语种的主语种标识和多个副语种的副语种标识;
获取预先建立的标准词条结构对象;
将所述词条结构对象与所述标准词条结构对象进行比对,得到结构化检测结果;
对于每个词条标识,对所述词条标识下所述主语种标识所对应的主语种文本与各副语种标识所对应的副语种文本进行语义分析,得到所述词条标识的词条语义检测结果,并根据所述各词条标识的词条语义检测结果生成语义检测结果;
根据所述结构化检测结果和所述语义检测结果生成多语种词条检测结果。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
获取待检测的工程代码文件;
对所述工程代码文件进行扫描得到词条结构对象,所述词条结构对象包括所述工程代码文件中的各词条标识以及所述各词条标识下的各语种标识,语种标识包括主语种的主语种标识和多个副语种的副语种标识;
获取预先建立的标准词条结构对象;
将所述词条结构对象与所述标准词条结构对象进行比对,得到结构化检测结果;
对于每个词条标识,对所述词条标识下所述主语种标识所对应的主语种文本与各副语种标识所对应的副语种文本进行语义分析,得到所述词条标识的词条语义检测结果,并根据所述各词条标识的词条语义检测结果生成语义检测结果;
根据所述结构化检测结果和所述语义检测结果生成多语种词条检测结果。
与现有技术相比,本申请实施例主要有以下有益效果:对工程代码文件进行扫描得到词条结构对象,词条结构对象以固定格式记录工程代码文件中的各词条标识以及各词条标识下的各语种标识;获取预先建立的标准词条结构对象作为基准,与词条结构对象进行比对得到结构化检测结果,它记录了词条结构对象中缺失了哪些信息,固定格式数据的比对可以提高比对速度;对于每个词条标识,以主语种为标准,对词条标识下主语种标识所对应的主语种文本与各副语种标识所对应的副语种文本进行语义分析,得到词条语义检测结果,根据各词条标识的词条语义检测结果生成语义检测结果,它可以记录词条结构对象中哪些文本可能存在语义错误,从而从不同维度对工程代码文件实现了自动检测,提高了多语种词条检测的效率和准确性。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的多语种词条检测方法的一个实施例的流程图;
图3是根据本申请的多语种词条检测装置的一个实施例的结构示意图;
图4是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Mov i ng P i cture ExpertsG roup Aud i o Layer I I I,动态影像专家压缩标准音频层面3)、MP4(Mov i ng P ictu re Experts Group Aud i o Layer I V,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的多语种词条检测方法一般由终端设备执行,相应地,多语种词条检测装置一般设置于终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的多语种词条检测方法的一个实施例的流程图。所述的多语种词条检测方法,包括以下步骤:
步骤S201,获取待检测的工程代码文件。
在本实施例中,多语种词条检测方法运行于其上的电子设备(例如图1所示的终端设备)可以通过有线连接方式或者无线连接方式与服务器进行通信。需要指出的是,上述无线连接方式可以包括但不限于3G/4G/5G连接、W i F i连接、蓝牙连接、W i MAX连接、Z igbee连接、UWB(u l t ra w i deband)连接、以及其他现在已知或将来开发的无线连接方式。
具体地,获取待检测的工程代码文件,工程代码文件可以是应用程序或者项目的代码文件,包含应用程序或者项目中的全部信息。
步骤S202,对工程代码文件进行扫描得到词条结构对象,词条结构对象包括工程代码文件中的各词条标识以及各词条标识下的各语种标识,语种标识包括主语种的主语种标识和多个副语种的副语种标识。
具体地,应用程序或者项目中可以包含多个词条,例如“虚拟机”就可以是一个词条。词条标识可以唯一地标识一个词条,词条可以有多个语种的文本表示,例如以汉语、英语、日语对词条的概念进行解释。词条标识下具有多个语种标识,代表使用各语种标识所对应的语种表示词条内容。在各语种中,有一种语种将作为主语种,而其他的语种将作为副语种;主语种的标识为主语种标识,副语种的标识为副语种标识。
各词条及其对应的词条标识,以及各词条标识下的各语种标识均可以记录在工程代码文件中。对工程代码文件进行扫描可以得到上述信息,并按照预设的格式将扫描到的信息进行汇总,得到词条结构对象。
步骤S203,获取预先建立的标准词条结构对象。
具体地,获取标准词条结构对象,标准词条结构对象可以是预先建立的词条结构对象,它可以根据应用软件或者项目的开发说明文档自动生成,开发说明文档是在前期立项过程中,应用软件或者项目的详细说明文档,包含了应用软件或者项目的各种标准与规范信息;标准词条结构对象也可以由开发人员预先编写并进行校对。
步骤S204,将词条结构对象与标准词条结构对象进行比对,得到结构化检测结果。
具体地,将词条结构对象与标准词条结构对象进行比对,词条结构对象与标准词条结构对象数据格式相同,可以快速完成比对,该比对主要是检测词条结构对象中是否存在缺失的信息。比对完成后得到结构化检测结果,它可以记录词条结构对象中缺失了哪些信息。
步骤S205,对于每个词条标识,对词条标识下主语种标识所对应的主语种文本与各副语种标识所对应的副语种文本进行语义分析,得到词条标识的词条语义检测结果,并根据各词条标识的词条语义检测结果生成语义检测结果。
具体地,对于每个词条标识,该词条标识下可以有主语种标识所对应的主语种文本,以及各副语种标识所对应的副语种文本。可以对主语种文本和副语种文本进行语义分析,以检测文本是否存在语义上的错误。在进行语义分析时,可以将主语种所对应的主语种文本作为参考标准。主语种可以由开发人员确定,通常,会将开发人员的母语作为主语种,例如将汉语作为主语种,因为开发人员对其母语最为熟悉,在根据母语编写词条的文本时,可以做到最准确、最齐全。
语义分析完成后会生成词条标识的词条语义检测结果,词条语义检测结果表明词条标识下哪些语种标识所对应的文本可能存在语义上的错误。各词条标识的词条语义检测结果的集合可以构成语义检测结果。
步骤S206,根据结构化检测结果和语义检测结果生成多语种词条检测结果。
具体地,结构化检测结果记录词条结构对象中缺失了哪些信息,语义检测结果记录词条结构对象中哪些文本可能存在语义错误,对结构化检测结果和语义检测结果进行合并,可以生成工程代码文件的多语种词条检测结果,完成工程代码文件的自动化检测。
多语种词条检测结果中还可以包括工程代码文件所在代码仓库的名称、存在异常的词条的编辑开发人员、存在异常的词条的提交时间及其具体的文本内容。
多语种词条检测结果可以存入本地临时文件,并且可以通过webhook推送到相应的接收对象,例如开发人员或者某群聊,以提醒开发人员查看检测结果并进行词条修复。
在推送时,可以选择性地将检测到的异常进行缩减推送,可以定义一个变量overv i ewCount来决定推送的内容条数,例如定义overv i ewCount=5,当异常内容条数大于5条的时候,只选择最开始的前五条进行推送通知,同时会以补充的形式将其他结果存放的本地路径附带给接收对象,以便查看;推送消息可以通过mar kdown的形式推送,方便阅读。
本实施例中,对工程代码文件进行扫描得到词条结构对象,词条结构对象以固定格式记录工程代码文件中的各词条标识以及各词条标识下的各语种标识;获取预先建立的标准词条结构对象作为基准,与词条结构对象进行比对得到结构化检测结果,它记录了词条结构对象中缺失了哪些信息,固定格式数据的比对可以提高比对速度;对于每个词条标识,以主语种为标准,对词条标识下主语种标识所对应的主语种文本与各副语种标识所对应的副语种文本进行语义分析,得到词条语义检测结果,根据各词条标识的词条语义检测结果生成语义检测结果,它可以记录词条结构对象中哪些文本可能存在语义错误,从而从不同维度对工程代码文件实现了自动检测,提高了多语种词条检测的效率和准确性。
进一步的,上述步骤S202可以包括:对工程代码文件进行递归扫描,以获取工程代码文件中的各词条标识以及各词条标识下的各语种标识,其中,语种标识还带有存在声明标识,存在声明标识用于标记是否存在语种标识所对应的语种文本;根据各词条标识以及各词条标识下的各语种标识,生成JSON格式的词条结构对象。
具体地,对工程代码文件进行递归扫描,获取工程代码文件中的各词条标识以及各词条标识下的各语种标识,语种标识还带有存在声明标识,存在声明标识用于标记是否存在语种标识所对应的语种文本。在工程代码文件中,某词条标识下存在某语种标识时,并不一定具有对应的文本,开发人员可能暂时没有对该词条进行翻译;这种情况下开发人员可以添加存在声明标识。通常,当存在语种标识所对应的文本时,存在声明标识为空,当没有对词条进行翻译时,可以填写预设的存在声明标识,它可以是预先设定的字符串。
根据各词条标识以及各词条标识下的各语种标识,生成JSON格式的词条结构对象。JSON(JavaSc r i pt Obj ect Notat i on,JS对象简谱)是一种轻量级的数据交换格式。它采用完全独立于编程语言的文本格式来存储和表示数据。JSON具有简洁和清晰的层次结构,并因此成为理想的数据交换语言,易于阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。
需要指出的是,在开发人员编写工程代码文件时,创建词条时,也会添加该词条的词条标识;开发人员每在词条下编写一个语种的文本表示,就会添加该语种的语种标识,添加的词条标识与语种标识,可以由系统自动添加,也可以由开发人员自主添加。
在一个实施例中,在代码仓库中找到存放工程代码文件的文件夹路径sourceD ir,如“/packages/l ang/l oca l e/”,对sourceD i r进行递归扫描遍历,如果其子集是文件夹,就继续递归,直到得到所有文件名,然后动态i mport sourceD i r,得到不同语种下的所有词条,即得到所有文件路径之后,依次i mport文件内容对象,得到所有词条内容。
本申请还支持不对特定文件夹进行,即白名单处理,可以定义一个数组ignorePathPref i x来存放不需要扫描的文件路径(取部分路径前缀即可),然后通过对sourceD i r进行二次过滤,过滤出不需要扫描的文件夹就可以做到白名单处理。
本实施例中,对工程代码文件进行递归扫描,以完全获取工程代码文件中的各词条标识以及各词条标识下的各语种标识;根据扫描得到的信息生成JSON格式的词条结构对象,有利于计算机的解析,提高了后续比对的速度。
进一步的,上述步骤S204可以包括:将词条结构对象与标准词条结构对象进行比对,以检测词条结构对象中缺失的语种标识;根据词条结构对象中的存在声明标识,确定词条结构对象中翻译缺失的语种标识;根据缺失的语种标识和翻译缺失的语种标识,生成结构化检测结果。
具体地,标准词条结构对象具有最齐全的结构化信息,将词条结构对象与标准词条结构对象进行比对,可以检测出词条结构对象中缺失的语种标识,可以理解,这里缺失的语种标识需要关联于词条标识,代表某词条下缺失了某语种的文本表示。如果词条结构对象缺失了某词条标识,则该词条标识及其下属的各语种标识都被标记为缺失。
读取词条结构对象中的存在声明标识,从而确定词条结构对象中翻译缺失的语种标识;根据检测到的缺失的语种标识和翻译缺失的语种标识,生成结构化检测结果。
本实施例中,将词条结构对象与标准词条结构对象进行比对,以检测词条结构对象中缺失的语种标识;根据存在声明标识,确定词条结构对象中翻译缺失的语种标识,从而全面准确地检测出工程代码文件中缺失的信息。
进一步的,上述对词条标识下主语种标识所对应的主语种文本与各副语种标识所对应的副语种文本进行语义分析,得到词条标识的词条语义检测结果的步骤可以包括:根据主语种对词条标识下各副语种标识所对应的副语种文本进行翻译,得到翻译文本;分别计算各翻译文本与词条标识下主语种标识所对应的主语种文本间的文本相似度;根据得到的文本相似度生成词条标识的词条语义检测结果。
具体地,本申请还可以对词条标识下的文本进行翻译,翻译可以通过开发人员自主编写的翻译工具实现,或者调用已有翻译工具的接口实现。
前文已经进行论述,通常主语种文本最为齐全,且内容最为准确,因此,在语义分析时以主语种文本作为参考标准。
根据主语种,对词条标识下各副语种标识所对应的副语种文本进行翻译,得到翻译文本。例如,主语种为汉语,副语种包括英语以及日语,则将词条标识下英语以及日语所对应的副语种文本翻译为汉语,得到翻译文本。
分别计算各翻译文本与词条标识下主语种标识所对应的主语种文本间的文本相似度。例如,可以将主语种文本和翻译文本转换为句向量,计算句向量之间的余弦相似度作为文本相似度。
文本相似度的大小可以反应翻译文本与主语种文本在语义上的接近程度,从而可以检测出翻译文本所对应的副语种文本是否存在语义上的错误(例如开发人员将词条B的英语表示文本放在了词条A下边),从而得到词条标识的词条语义检测结果。
进一步的,上述根据得到的文本相似度生成词条标识的词条语义检测结果的步骤可以包括:获取预设的相似度阈值;当存在小于相似度阈值的文本相似度时,将文本相似度所对应的副语种文本标记为语义异常文本;当各文本相似度均小于相似度阈值时,将主语种文本标记为语义异常文本;根据得到的语义异常文本,生成词条标识的词条语义检测结果。
具体地,获取预设的相似度阈值,当存在小于相似度阈值的文本相似度时,该文本相似度所对应的副语种文本与主语种文本在语义上相差较大,可能存在错误,可以将该副语种文本标记为语义异常文本。
当各文本相似度均小于相似度阈值时,各副语种文本与主语种文本语义上均存在较大差异,此时,可能时主语种文本出现错误,例如主语种文本并不匹配词条,可以将主语种文本标记为语义异常文本。根据检测出的语义异常文本,生成词条标识的词条语义检测结果。
在一个实施例中,可以预先设置数量阈值,如果文本相似度小于相似度阈值的副语种文本数量小于数量阈值,则认为副语种出错概率较高,将相应的副语种文本标记为语义异常文本;如果文本相似度小于相似度阈值的副语种文本数量大于等于数量阈值,则认为主语种出错概率较高,将主语种文本标记为语义异常文本,可以理解,这种情况下,也可以将主语种文本以及各副语种文本均标记为语义异常文本。
在一个实施例中,可以判断主语种文本与词条名称是否匹配,例如可以计算两者之间的语义相似度,或者将主语种文本与词条名称输入训练完毕的神经网络以判断两者在语义上是否匹配。如果主语种文本与词条名称不匹配,则将主语种文本/主语种文本以及各副语种文本标记为语义异常文本。
本实施例中,获取预设的相似度阈值,根据小于相似度阈值的副语种文本的数量,将副语种文本或者主语种文本标记为语义异常文本,实现语义的准确检测。
本实施例中,根据主语种对词条标识下各副语种标识所对应的副语种文本进行翻译得到翻译文本;计算各翻译文本与词条标识下主语种标识所对应的主语种文本间的文本相似度,从而判断副语种文本是否存在语义上的错误,实现词条的语义检测。
进一步的,上述步骤S206之后,还可以包括:当根据多语种词条检测结果确定工程代码文件存在主语种异常时,向目标终端发送主语种修复请求,主语种异常包括主语种标识的缺失、翻译缺失以及语义异常;当接收到目标终端返回的主语种修复信息时,根据主语种修复信息对工程代码文件中的主语种异常进行修复。
具体地,当根据多语种词条检测结果确定工程代码文件存在主语种异常时(包括主语种标识的缺失、翻译缺失以及语义异常,相关含义已在前文进行表述),向目标终端发送主语种修复请求;目标终端可以是预设账号所登录的终端,预设账号可以是相关的开发人员的账号。可以理解,由于词条具有场景意义,其内涵难以自动生成,需要开发人员对异常的主语种进行内容补齐与修改,从而得到主语种修复信息。终端设备在接收到开发人员通过目标终端返回的主语种修复信息后,根据主语种修复信息对工程代码文件中的主语种异常进行修复,弥补主语种标识的缺失,即主语种标识所对应主语种文本的缺失;弥补翻译缺失,并修改对应的存在声明标识;将语义异常的主文本替换为主语种修复信息中相应的主语种文本,并可以继续对同一词条标识下的副语种文本进行相应修补,从而提高工程代码文件的准确性。
本实施例中,当根据多语种词条检测结果确定工程代码文件存在主语种异常时,由于词条具有场景意义,需要向目标终端发送主语种修复请求,由开发人员编写主语种修复信息,根据主语种修复信息对工程代码文件中的主语种异常进行修复,从而提高工程代码文件的准确性,修补其中缺失或错误的信息。
进一步的,上述步骤S206之后,又可以包括:当根据多语种词条检测结果确定工程代码文件存在副语种异常时,获取异常的副语种标识所对应主语种的主语种文本;根据副语种标识所对应的副语种,对主语种文本进行翻译得到翻译文本;根据翻译文本,对工程代码文件中的副语种异常进行修复。
具体地,当根据多语种词条检测结果确定工程代码文件存在副语种异常(包括副语种标识的缺失、翻译缺失以及语义异常,相关含义已在前文进行表述)时,获取异常的副语种标识所对应主语种的主语种文本,即获取同一个词条标识下的主语种文本。
然后,根据副语种标识所对应的副语种,对主语种文本进行翻译得到翻译文本,例如,当某词条下的副语种英语出现异常时,获取该词条下主语种汉语的文本,并将其翻译为英语。根据翻译文本,对工程代码文件中的副语种异常进行修复,弥补副语种标识的缺失,即副语种标识所对应副语种文本的缺失;弥补翻译缺失,并修改对应的存在声明标识;将翻译文本替换原有的副语种文本。
可以理解,如果存在主语种异常,根据主语种修复信息对工程代码文件中的主语种异常进行修复后,可以自动对同一词条下相应的副语种进行自动修复,以确保副语种文本的准确性。
本实施例中,当根据多语种词条检测结果确定工程代码文件存在副语种异常而主语种正常时,可以根据对应的主语种文本对副语种文本进行自动修复,从而提高工程代码文件的准确性,修补其中缺失或错误的信息。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-On l y Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图3,作为对上述图2所示方法的实现,本申请提供了一种多语种词条检测装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例所述的多语种词条检测装置300包括:文件获取模块301、文件扫描模块302、标准获取模块303、对象比对模块304、语义分析模块305以及结果生成模块306,其中:
文件获取模块301,用于获取待检测的工程代码文件。
文件扫描模块302,用于对工程代码文件进行扫描得到词条结构对象,词条结构对象包括工程代码文件中的各词条标识以及各词条标识下的各语种标识,语种标识包括主语种的主语种标识和多个副语种的副语种标识。
标准获取模块303,用于获取预先建立的标准词条结构对象。
对象比对模块304,用于将词条结构对象与标准词条结构对象进行比对,得到结构化检测结果。
语义分析模块305,用于对于每个词条标识,对词条标识下主语种标识所对应的主语种文本与各副语种标识所对应的副语种文本进行语义分析,得到词条标识的词条语义检测结果,并根据各词条标识的词条语义检测结果生成语义检测结果。
结果生成模块306,用于根据结构化检测结果和语义检测结果生成多语种词条检测结果。
本实施例中,对工程代码文件进行扫描得到词条结构对象,词条结构对象以固定格式记录工程代码文件中的各词条标识以及各词条标识下的各语种标识;获取预先建立的标准词条结构对象作为基准,与词条结构对象进行比对得到结构化检测结果,它记录了词条结构对象中缺失了哪些信息,固定格式数据的比对可以提高比对速度;对于每个词条标识,以主语种为标准,对词条标识下主语种标识所对应的主语种文本与各副语种标识所对应的副语种文本进行语义分析,得到词条语义检测结果,根据各词条标识的词条语义检测结果生成语义检测结果,它可以记录词条结构对象中哪些文本可能存在语义错误,从而从不同维度对工程代码文件实现了自动检测,提高了多语种词条检测的效率和准确性。
在本实施例的一些可选的实现方式中,文件扫描模块302可以包括:文件扫描子模块以及对象生成子模块,其中:
文件扫描子模块,用于对工程代码文件进行递归扫描,以获取工程代码文件中的各词条标识以及各词条标识下的各语种标识,其中,语种标识还带有存在声明标识,存在声明标识用于标记是否存在语种标识所对应的语种文本。
对象生成子模块,用于根据各词条标识以及各词条标识下的各语种标识,生成JSON格式的词条结构对象。
本实施例中,对工程代码文件进行递归扫描,以完全获取工程代码文件中的各词条标识以及各词条标识下的各语种标识;根据扫描得到的信息生成JSON格式的词条结构对象,有利于计算机的解析,提高了后续比对的速度。
在本实施例的一些可选的实现方式中,对象比对模块304可以包括:缺失检测子模块、翻译确定子模块以及结果生成子模块,其中:
缺失检测子模块,用于将词条结构对象与标准词条结构对象进行比对,以检测词条结构对象中缺失的语种标识。
翻译确定子模块,用于根据词条结构对象中的存在声明标识,确定词条结构对象中翻译缺失的语种标识。
结果生成子模块,用于根据缺失的语种标识和翻译缺失的语种标识,生成结构化检测结果。
本实施例中,将词条结构对象与标准词条结构对象进行比对,以检测词条结构对象中缺失的语种标识;根据存在声明标识,确定词条结构对象中翻译缺失的语种标识,从而全面准确地检测出工程代码文件中缺失的信息。
在本实施例的一些可选的实现方式中,语义分析模块305可以包括:文本翻译子模块、相似度计算子模块以及语义检测子模块,其中:
文本翻译子模块,用于根据主语种对词条标识下各副语种标识所对应的副语种文本进行翻译,得到翻译文本。
相似度计算子模块,用于分别计算各翻译文本与词条标识下主语种标识所对应的主语种文本间的文本相似度。
语义检测子模块,用于根据得到的文本相似度生成词条标识的词条语义检测结果。
本实施例中,根据主语种对词条标识下各副语种标识所对应的副语种文本进行翻译得到翻译文本;计算各翻译文本与词条标识下主语种标识所对应的主语种文本间的文本相似度,从而判断副语种文本是否存在语义上的错误,实现词条的语义检测。
在本实施例的一些可选的实现方式中,语义检测子模块可以包括:阈值获取单元、第一标记单元、第二标记单元以及结果生成单元,其中:
阈值获取单元,用于获取预设的相似度阈值。
第一标记单元,用于当存在小于相似度阈值的文本相似度时,将文本相似度所对应的副语种文本标记为语义异常文本。
第二标记单元,用于当各文本相似度均小于相似度阈值时,将主语种文本标记为语义异常文本。
结果生成单元,用于根据得到的语义异常文本,生成词条标识的词条语义检测结果。
本实施例中,获取预设的相似度阈值,根据小于相似度阈值的副语种文本的数量,将副语种文本或者主语种文本标记为语义异常文本,实现语义的准确检测。
在本实施例的一些可选的实现方式中,多语种词条检测装置300可以包括:请求发送模块以及主语种修复模块,其中:
请求发送模块,用于当根据多语种词条检测结果确定工程代码文件存在主语种异常时,向目标终端发送主语种修复请求,主语种异常包括主语种标识的缺失、翻译缺失以及语义异常。
主语种修复模块,用于当接收到目标终端返回的主语种修复信息时,根据主语种修复信息对工程代码文件中的主语种异常进行修复。
本实施例中,当根据多语种词条检测结果确定工程代码文件存在主语种异常时,由于词条具有场景意义,需要向目标终端发送主语种修复请求,由开发人员编写主语种修复信息,根据主语种修复信息对工程代码文件中的主语种异常进行修复,从而提高工程代码文件的准确性,修补其中缺失或错误的信息。
在本实施例的另一些可选的实现方式中,多语种词条检测装置300还可以包括:文本获取模块、文本翻译模块以及副语种修复模块,其中:
文本获取模块,用于当根据多语种词条检测结果确定工程代码文件存在副语种异常时,获取异常的副语种标识所对应主语种的主语种文本。
文本翻译模块,用于根据副语种标识所对应的副语种,对主语种文本进行翻译得到翻译文本。
副语种修复模块,用于根据翻译文本,对工程代码文件中的副语种异常进行修复。
本实施例中,当根据多语种词条检测结果确定工程代码文件存在副语种异常而主语种正常时,可以根据对应的主语种文本对副语种文本进行自动修复,从而提高工程代码文件的准确性,修补其中缺失或错误的信息。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件41-43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(App l i cat i onSpec i f i c I ntegrated C i rcu i t,AS I C)、可编程门阵列(F i e l d-Programmab l e Gate Ar ray,FPGA)、数字处理器(D i g i ta l S i gna l Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如多语种词条检测方法的计算机可读指令等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据,例如运行所述多语种词条检测方法的计算机可读指令。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
本实施例中提供的计算机设备可以执行上述多语种词条检测方法。此处多语种词条检测方法可以是上述各个实施例的多语种词条检测方法。
本实施例中,对工程代码文件进行扫描得到词条结构对象,词条结构对象以固定格式记录工程代码文件中的各词条标识以及各词条标识下的各语种标识;获取预先建立的标准词条结构对象作为基准,与词条结构对象进行比对得到结构化检测结果,它记录了词条结构对象中缺失了哪些信息,固定格式数据的比对可以提高比对速度;对于每个词条标识,以主语种为标准,对词条标识下主语种标识所对应的主语种文本与各副语种标识所对应的副语种文本进行语义分析,得到词条语义检测结果,根据各词条标识的词条语义检测结果生成语义检测结果,它可以记录词条结构对象中哪些文本可能存在语义错误,从而从不同维度对工程代码文件实现了自动检测,提高了多语种词条检测的效率和准确性。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的多语种词条检测方法的步骤。
本实施例中,对工程代码文件进行扫描得到词条结构对象,词条结构对象以固定格式记录工程代码文件中的各词条标识以及各词条标识下的各语种标识;获取预先建立的标准词条结构对象作为基准,与词条结构对象进行比对得到结构化检测结果,它记录了词条结构对象中缺失了哪些信息,固定格式数据的比对可以提高比对速度;对于每个词条标识,以主语种为标准,对词条标识下主语种标识所对应的主语种文本与各副语种标识所对应的副语种文本进行语义分析,得到词条语义检测结果,根据各词条标识的词条语义检测结果生成语义检测结果,它可以记录词条结构对象中哪些文本可能存在语义错误,从而从不同维度对工程代码文件实现了自动检测,提高了多语种词条检测的效率和准确性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法,其中,所述存储介质可以是非易失性存储介质,也可以是易失性存储介质。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
Claims (10)
1.一种多语种词条检测方法,其特征在于,包括下述步骤:
获取待检测的工程代码文件;
对所述工程代码文件进行扫描得到词条结构对象,所述词条结构对象包括所述工程代码文件中的各词条标识以及所述各词条标识下的各语种标识,语种标识包括主语种的主语种标识和多个副语种的副语种标识;
获取预先建立的标准词条结构对象;
将所述词条结构对象与所述标准词条结构对象进行比对,得到结构化检测结果;
对于每个词条标识,对所述词条标识下所述主语种标识所对应的主语种文本与各副语种标识所对应的副语种文本进行语义分析,得到所述词条标识的词条语义检测结果,并根据所述各词条标识的词条语义检测结果生成语义检测结果;
根据所述结构化检测结果和所述语义检测结果生成多语种词条检测结果。
2.根据权利要求1所述的多语种词条检测方法,其特征在于,所述对所述工程代码文件进行扫描得到词条结构对象的步骤包括:
对所述工程代码文件进行递归扫描,以获取所述工程代码文件中的各词条标识以及所述各词条标识下的各语种标识,其中,语种标识还带有存在声明标识,所述存在声明标识用于标记是否存在所述语种标识所对应的语种文本;
根据所述各词条标识以及所述各词条标识下的各语种标识,生成JSON格式的词条结构对象。
3.根据权利要求2所述的多语种词条检测方法,其特征在于,所述将所述词条结构对象与所述标准词条结构对象进行比对,得到结构化检测结果的步骤包括:
将所述词条结构对象与所述标准词条结构对象进行比对,以检测所述词条结构对象中缺失的语种标识;
根据所述词条结构对象中的存在声明标识,确定所述词条结构对象中翻译缺失的语种标识;
根据所述缺失的语种标识和所述翻译缺失的语种标识,生成结构化检测结果。
4.根据权利要求1所述的多语种词条检测方法,其特征在于,所述对所述词条标识下所述主语种标识所对应的主语种文本与各副语种标识所对应的副语种文本进行语义分析,得到所述词条标识的词条语义检测结果的步骤包括:
根据所述主语种对所述词条标识下各副语种标识所对应的副语种文本进行翻译,得到翻译文本;
分别计算各翻译文本与所述词条标识下所述主语种标识所对应的主语种文本间的文本相似度;
根据得到的文本相似度生成所述词条标识的词条语义检测结果。
5.根据权利要求4所述的多语种词条检测方法,其特征在于,所述根据得到的文本相似度生成所述词条标识的词条语义检测结果的步骤包括:
获取预设的相似度阈值;
当存在小于所述相似度阈值的文本相似度时,将所述文本相似度所对应的副语种文本标记为语义异常文本;
当各文本相似度均小于所述相似度阈值时,将所述主语种文本标记为语义异常文本;
根据得到的语义异常文本,生成所述词条标识的词条语义检测结果。
6.根据权利要求1所述的多语种词条检测方法,其特征在于,在所述根据所述结构化检测结果和所述语义检测结果生成多语种词条检测结果的步骤之后,还包括:
当根据所述多语种词条检测结果确定所述工程代码文件存在主语种异常时,向目标终端发送主语种修复请求,所述主语种异常包括主语种标识的缺失、翻译缺失以及语义异常;
当接收到所述目标终端返回的主语种修复信息时,根据所述主语种修复信息对所述工程代码文件中的主语种异常进行修复。
7.根据权利要求6所述的多语种词条检测方法,其特征在于,在所述根据所述结构化检测结果和所述语义检测结果生成多语种词条检测结果的步骤之后,还包括:
当根据所述多语种词条检测结果确定所述工程代码文件存在副语种异常时,获取异常的副语种标识所对应主语种的主语种文本;
根据所述副语种标识所对应的副语种,对所述主语种文本进行翻译得到翻译文本;
根据所述翻译文本,对所述工程代码文件中的副语种异常进行修复。
8.一种多语种词条检测装置,其特征在于,包括:
文件获取模块,用于获取待检测的工程代码文件;
文件扫描模块,用于对所述工程代码文件进行扫描得到词条结构对象,所述词条结构对象包括所述工程代码文件中的各词条标识以及所述各词条标识下的各语种标识,语种标识包括主语种的主语种标识和多个副语种的副语种标识;
标准获取模块,用于获取预先建立的标准词条结构对象;
对象比对模块,用于将所述词条结构对象与所述标准词条结构对象进行比对,得到结构化检测结果;
语义分析模块,用于对于每个词条标识,对所述词条标识下所述主语种标识所对应的主语种文本与各副语种标识所对应的副语种文本进行语义分析,得到所述词条标识的词条语义检测结果,并根据所述各词条标识的词条语义检测结果生成语义检测结果;
结果生成模块,用于根据所述结构化检测结果和所述语义检测结果生成多语种词条检测结果。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储5有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的多语种词条检测方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的多语种词条检测方法的0步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211713337.8A CN115964051A (zh) | 2022-12-29 | 2022-12-29 | 多语种词条检测方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211713337.8A CN115964051A (zh) | 2022-12-29 | 2022-12-29 | 多语种词条检测方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115964051A true CN115964051A (zh) | 2023-04-14 |
Family
ID=87352591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211713337.8A Pending CN115964051A (zh) | 2022-12-29 | 2022-12-29 | 多语种词条检测方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115964051A (zh) |
-
2022
- 2022-12-29 CN CN202211713337.8A patent/CN115964051A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108108342B (zh) | 结构化文本的生成方法、检索方法及装置 | |
CN105631393A (zh) | 信息识别方法及装置 | |
US9195653B2 (en) | Identification of in-context resources that are not fully localized | |
CN110389941B (zh) | 数据库校验方法、装置、设备及存储介质 | |
US20150161160A1 (en) | Application Localization | |
CN112417899A (zh) | 文字翻译方法、装置、计算机设备和存储介质 | |
CN111552463A (zh) | 一种页面跳转方法、装置、计算机设备及存储介质 | |
CN113094625B (zh) | 页面元素定位方法、装置、电子设备及存储介质 | |
CN110716804A (zh) | 无用资源的自动删除方法、装置、存储介质及电子设备 | |
CN112783482B (zh) | 一种可视化表单生成方法、装置、设备及存储介质 | |
CN113869789A (zh) | 一种风险监控的方法、装置、计算机设备及存储介质 | |
WO2022134577A1 (zh) | 翻译错误识别方法、装置、计算机设备及可读存储介质 | |
CN117033249A (zh) | 一种测试用例生成方法、装置、计算机设备及存储介质 | |
US8452814B1 (en) | Gathering context in action to support in-context localization | |
CN115455922B (zh) | 表单校验方法、装置、电子设备和存储介质 | |
CN111177387A (zh) | 用户名单信息处理方法、电子装置及计算机可读存储介质 | |
CN117033309A (zh) | 一种数据转换方法、装置、电子设备及可读存储介质 | |
CN107168627B (zh) | 用于触摸屏的文本编辑方法和装置 | |
CN112559541B (zh) | 一种单证的审核方法、装置、设备及存储介质 | |
CN115964051A (zh) | 多语种词条检测方法、装置、计算机设备及存储介质 | |
CN114968725A (zh) | 任务依赖关系校正方法、装置、计算机设备及存储介质 | |
CN112966671A (zh) | 一种合同检测方法、装置、电子设备及存储介质 | |
CN113704650A (zh) | 信息展示方法、装置、系统、设备及存储介质 | |
CN112711435A (zh) | 版本更新方法、版本更新装置、电子设备和存储介质 | |
JP2006031129A (ja) | 文書処理手法及び文書処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |