CN112232091B - 一种内容匹配的方法及装置、可读存储介质 - Google Patents

一种内容匹配的方法及装置、可读存储介质 Download PDF

Info

Publication number
CN112232091B
CN112232091B CN202011099984.5A CN202011099984A CN112232091B CN 112232091 B CN112232091 B CN 112232091B CN 202011099984 A CN202011099984 A CN 202011099984A CN 112232091 B CN112232091 B CN 112232091B
Authority
CN
China
Prior art keywords
string
matched
matching
content
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011099984.5A
Other languages
English (en)
Other versions
CN112232091A (zh
Inventor
陈海燕
钱开源
张沛宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wensihai Huizhike Technology Co ltd
Original Assignee
Wensihai Huizhike Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wensihai Huizhike Technology Co ltd filed Critical Wensihai Huizhike Technology Co ltd
Priority to CN202011099984.5A priority Critical patent/CN112232091B/zh
Publication of CN112232091A publication Critical patent/CN112232091A/zh
Application granted granted Critical
Publication of CN112232091B publication Critical patent/CN112232091B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种内容匹配的方法及装置、可读存储介质。内容匹配的方法,包括:获取待匹配内容;所述待匹配内容为UI内容或UA内容;根据预设断句规则,将所述待匹配内容拆分为待匹配字串;根据所述待匹配字串对应的待匹配内容获取所述待匹配字串的属性信息;将所述待匹配字串的属性信息和预设翻译记忆库中的参考字串的属性信息进行匹配,确定所述待匹配字串与所述参考字串的匹配类型。该方法用以完善UI和UA的匹配方式,提高UI和UA的利用率。

Description

一种内容匹配的方法及装置、可读存储介质
技术领域
本申请涉及翻译技术领域,具体而言,涉及一种内容匹配的方法及装置、可读存储介质。
背景技术
软件本地化翻译工作中主要涉及两类文件,包含UI(User Interface,用户界面)和UA(User Assistant,用户帮助)文件。传统技术使用TM(Translation Memory,翻译记忆库)存储已翻内容,以便复用译文或获取相近源文的译文。
UA文件中大多数的段落都是包含多个句子的长文本。因为文本长度过长,这些段落不容易得到匹配,TM利用率低下。为了提高翻译效率,传统技术往往会先做断句,再逐句翻译,以便按句子入库。而对于UI文件,大部分UI字串比较短,容易出现同一个串在不同场景(即其所属的UI界面/功能模块)下意义不同,所以译文也不同。UI文件中字串的顺序是无意义的,而字串ID(Identity Document,身份标识)又是唯一的,因此传统技术基于UI的ID进行匹配复用。
因而,传统技术中,针对UA文件,往往会断句后翻译,UI翻译前不做断句操作。进而导致,对于UI文件,长文本段不能断句,并且UI和UA两者之间不能很好地进行匹配,影响UI和UA文件的复用,利用率较低。
发明内容
本申请实施例的目的在于提供一种内容匹配的方法及装置、可读存储介质,用以完善UI和UA的匹配方式,提高UI和UA的利用率。
第一方面,本申请实施例提供一种内容匹配的方法,包括:获取待匹配内容;所述待匹配内容为UI内容或UA内容;根据预设断句规则,将所述待匹配内容拆分为待匹配字串;根据所述待匹配字串对应的待匹配内容获取所述待匹配字串的属性信息;将所述待匹配字串的属性信息和预设翻译记忆库中的参考字串的属性信息进行匹配,确定所述待匹配字串与所述参考字串的匹配类型。
在本申请实施例中,针对UI内容和UA内容,采用相同的匹配方式,均先进行断句得到待匹配字串,然后获取待匹配字串的属性信息,基于该属性信息确定待匹配字串与翻译记忆库中的参考字串的匹配类型。通过这种匹配方式,一方面,基于属性信息的匹配方式可以对UI内容和UA内容都进行断句,实现在TM中统一断句状态,便于UI内容和UA内容之间的正确匹配,提高UI内容和UA内容的利用率。另一方面,当确定匹配类型后,在对UI内容和UA内容进行利用时,可以结合匹配类型考虑是否对其进行利用,或者根据匹配类型选择应用方式,进而提高UI内容和UA内容的利用率。
作为一种可能的实现方式,所述属性信息包括:文本属性和附加属性;所述附加属性包括:上下文属性、标识属性和组件名属性中的至少一项。
在本申请实施例中,属性信息中包括基本的文本属性,以及能够实现UI内容和UA内容之间的正确匹配的上下文属性、标识属性和组件名属性中的至少一种属性,若采用一种属性,则能够通过该种属性进行针对性的匹配,实现快速匹配;若采用多种属性,则能够基于不同类型的属性实现更准确地匹配;从而提高匹配率。
作为一种可能的实现方式,所述将所述待匹配字串的属性信息和预设翻译记忆库中的参考字串的属性信息进行匹配,确定所述待匹配字串与所述参考字串的匹配类型,包括:确定所述待匹配字串和所述参考字串之间的文本属性的匹配程度;若所述文本属性的匹配程度为近似匹配,确定所述待匹配字串与所述参考字串的匹配类型为模糊匹配,并根据所述文本属性的匹配程度确定模糊匹配率;若所述文本属性的匹配程度为完全匹配,确定所述待匹配字串和所述参考字串之间的附加属性的匹配关系;根据所述附加属性的匹配关系和预设的匹配类型与附加属性的匹配关系之间的对应关系,确定所述待匹配字串与所述参考字串的匹配类型。
在本申请实施例中,在确定匹配类型时,先基于文本属性确定初步的匹配类型,再基于初步的匹配类型和附加属性确定进一步的匹配类型,通过两种不同的属性进行两次匹配类型的确定,使最终确定出的匹配类型能够更准确。
作为一种可能的实现方式,所述根据所述待匹配字串对应的待匹配内容获取所述待匹配字串的属性信息,包括:若所述待匹配内容为UI内容,获取所述待匹配字串的上一句文本和下一句文本的哈希值,作为所述待匹配字串的上下文属性;获取所述UI内容的标识属性作为所述待匹配字串的标识属性;获取所述UI内容所在组件、文件或者模块的标识,作为所述待匹配字串的组件名属性;若所述待匹配内容为UA内容,获取所述待匹配字串的上一句文本和下一句文本的哈希值,作为所述待匹配字串的上下文属性;将所述待匹配字串的标识属性标记为空属性;将所述待匹配字串的组件名属性标记为空属性。
在本申请实施例中,针对不同的待匹配内容,结合UA内容和UI内容的本身特性,采用不同的属性获取方式,实现与待匹配内容相对应的属性的获取;对于没有某项属性信息的待匹配内容,可以将该项属性标记为空属性,使待匹配内容的属性信息具有统一性(具有统一的属性信息项,但是属性信息项中的内容可能相同或者不同),便于基于属性信息进行匹配。
作为一种可能的实现方式,在所述将所述待匹配字串的属性信息和预设翻译记忆库中的参考字串的属性信息进行匹配,确定所述待匹配字串与所述参考字串的匹配类型,后,所述方法还包括:展示所述参考字串和所述匹配类型;将所述参考字串的翻译内容显示在所述待匹配字串对应的译文区域。
在本申请实施例中,展示参考字串和匹配类型,并将参考字串的翻译内容进行显示,以便于用户基于匹配类型对参考字串或者其翻译内容进行查看或者其他利用,提高参考字串的利用率。
作为一种可能的实现方式,所述参考字串的数量为多个;所述展示所述参考字串和所述匹配类型,包括:根据每个所述参考字串的匹配类型和预设的匹配类型评分规则确定每个所述参考字串的匹配得分;按照预设的匹配得分排列顺序展示多个所述参考字串和多个所述参考字串对应的匹配类型。
在本申请实施例中,在展示匹配类型时,先通过预设的匹配类型评分规则确定每个参考字串的匹配得分,然后再基于该匹配得分进行参考字串和匹配类型的显示(比如按照匹配得分从高到低显示参考字串),使最终显示的结果更有层次性(不是杂乱,没有规律的),便于对参考字串进行有效地复用。
作为一种可能的实现方式,所述匹配类型对应设置有一句多译罚分;所述方法还包括:为所述匹配得分高于预设值的参考字串添加用于表征一句多译的标识,并根据所述匹配得分高于预设值的参考字串对应的匹配类型对应的一句多译罚分为所述匹配得分高于预设值的参考字串设置匹配率。
在本申请实施例中,根据字串的匹配情况,通过基于匹配类型中设置的一句多译罚分对一句多译情况和对应的匹配率进行标记,则翻译记忆库中的数据具有相应的标记,进而避免翻译记忆库中的数据混乱。
作为一种可能的实现方式,所述方法还包括:接收所述参考字串的更新指令;所述更新指令中包括所述待匹配字串;在确定所述匹配类型为目标匹配类型时,将所述参考字串替换为所述待匹配字串;在确定所述匹配类型不是所述目标匹配类型时,根据所述待匹配字串在所述翻译记忆库中创建新的字串。
在本申请实施例中,还可以基于匹配情况选择替换或者创建字串的操作,实现翻译记忆库中的译文更新或追加。
第二方面,本申请实施例提供一种内容匹配的装置,包括用于实现第一方面以及第一方面的任意一种可能的实现方式中所述的方法的功能模块。
第三方面,本申请实施例提供一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被计算机运行时执行如第一方面以及第一方面的任意一种可能的实现方式中所述的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的内容匹配的方法的流程图;
图2为本申请实施例提供的内容匹配的装置的功能模块框图。
图标:200-内容匹配的装置;201-获取模块;202-断句模块;203-匹配模块。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
本申请实施例所提供的内容匹配的方法可以应用于TM(Translation Memory,翻译记忆库)所涉及到的相关内容的匹配,比如:在进行翻译记忆库的内容入库时,需要先将待入库的内容与已有的内容进行匹配。此时可以利用该内容匹配的方法进行内容匹配;再比如:在进行翻译记忆库中的内容查找时,即在为用户提供翻译辅助时,涉及到将待翻译的字串与翻译记忆库中的源文进行匹配,以查找到对应的译文。因此,该内容匹配的方法可以应用于翻译记忆库处理系统(或者利用翻译记忆库的在线翻译系统)。对于这些系统来说,可以包括:前端(包括电脑、手机等电子设备)和后端(服务器),前端用于实现用户与系统的交互,后端用于实现数据的处理,对于该内容匹配的方法,可以是在前端执行,也可以在后端执行,因此,该内容匹配的方法可以应用于翻译记忆库处理系统或者在线翻译系统的前端和后端,具体应用于哪一端,取决于实际的应用场景。
基于上述应用场景,请参照图1,为本申请实施例提供的内容匹配的方法的流程图,该方法包括:
步骤101:获取待匹配内容;待匹配内容为UI(User Interface,用户界面)内容或UA(User Assistant,用户帮助)内容。
步骤102:根据预设断句规则,将待匹配内容拆分为待匹配字串。
步骤103:根据待匹配字串对应的待匹配内容获取待匹配字串的属性信息。
步骤104:将待匹配字串的属性信息和预设翻译记忆库中的参考字串的属性信息进行匹配,确定待匹配字串与参考字串的匹配类型。
在本申请实施例中,针对UI内容和UA内容,采用相同的匹配方式,均先进行断句得到待匹配字串,然后获取待匹配字串的属性信息,基于该属性信息确定待匹配字串与翻译记忆库中的参考字串的匹配类型。通过这种匹配方式,一方面,基于属性信息的匹配方式可以对UI内容和UA内容都进行断句,实现在TM中统一断句状态,便于UI内容和UA内容之间的正确匹配,提高UI内容和UA内容的利用率。另一方面,当确定匹配类型后,在对UI内容和UA内容进行利用时,可以结合匹配类型考虑是否对其进行利用,或者根据匹配类型选择应用方式,基于该匹配类型,可以便于后续对TM中的数据进行处理,进一步进而提高UI内容和UA内容的利用率。
接下来对步骤101-步骤104的实施方式进行介绍。
在步骤101中,待匹配内容可以是UI内容或者UA内容。不管是UI内容还是UA内容,都可以理解为待翻译的内容(即需要给出译文的内容),其中,UI内容可以理解为呈现给用户的源语言版本的用户界面词;UA内容可以理解为源语言版本的帮助文件中的内容。翻译记忆库中包括源文和译文,将待匹配内容(作为源文)与翻译记忆库中的源文和译文进行匹配,可以确定出待匹配内容对应的译文,进而译员可以将该译文复用到待匹配字串上;或者更新或者追加与待匹配字串匹配的源文的译文。
进一步地,在步骤101中获取到待匹配内容后,执行步骤102,根据预设断句规则,将待匹配内容拆分为待匹配字串。可以理解,待匹配内容可以是段落,也可以是一句话,甚至于一个单词,将待匹配内容拆分后,对应得到的待匹配字串可以是一个或者多个,对于得到的待匹配字串的数量,取决于预设的断句规则。当然,对于得到的待匹配字串的内容等,也取决于预设的断句规则。预设的断句规则可以基于各种断句算法来进行设置,比如:基于词典的中文句子分词断句;基于已有的分词工具包进行断句;基于自然语言技术的分词断句等。这些断句规则都属于本领域技术人员的公知常识,在实际应用时可以根据需求合理地设置断句规则,在本申请实施例中不对具体的断句规则进行介绍。
进一步地,在步骤102中拆分得到待匹配字串后,执行步骤103,根据待匹配字串对应的待匹配内容获取待匹配字串的属性信息。在本申请实施例中,针对UI内容和UA内容的不同特点,采用相同的匹配方式进行匹配的基础条件为属性信息。接下来对属性信息的实施方式进行介绍。
作为一种可选的实施方式,属性信息包括:文本属性和附加属性,其中,附加属性可以是:上下文属性、标识属性和组件名属性。
在本申请实施例中,属性信息中包括基本的文本属性,以及能够实现UI内容和UA内容之间的正确匹配的上下文属性、标识属性和组件名属性中的至少一种属性,若采用一种属性,则能够通过该种属性进行针对性的匹配,实现快速匹配;若采用多种属性,则能够基于不同类型的属性实现更准确地匹配;从而提高匹配率。
对于文本属性,可以理解,UI内容和UA内容都包括文本属性,且都是待匹配字串的文本内容。对于UI内容,除了包括文本属性,还可以包括标识属性、上下文属性和组件名属性。对于UA内容,除了包括文本属性,还可以包括上下文属性。
因此,作为一种可选的实施方式,步骤103包括:若待匹配内容为UI内容,获取待匹配字串的上一句文本和下一句文本的哈希值,作为待匹配字串的上下文属性;获取UI内容的标识属性作为待匹配字串的标识属性;获取UI内容所在组件、文件或者模块的标识,作为待匹配字串的组件名属性;若待匹配内容为UA内容,获取待匹配字串的上一句文本和下一句文本的哈希值,作为待匹配字串的上下文属性;将待匹配字串的标识属性标记为空属性;将待匹配字串的组件名属性标记为空属性。
其中,对于上下文属性,其目的是确定待匹配字串和参考字串是否为同一上下文,即比较两者的上下句是否相同。在进行内容匹配时,大多数的比较情形都是不同字串间的比较。因此为了提高比较效率,可以首先使用哈希值用于快速否定。若哈希值不等,则两个文本必定不等。若哈希值相等,还是要比较上下句文本。在实际应用中,一般采用64位哈希,可以容纳2^64≈10^19个不同标识。其数量远远大于TM的实际需求容量,因而出现哈希碰撞(Hash Collision),即不同文本对应相同哈希值的概率微乎其微,可以忽略,故可直接使用文本的哈希值代替原文本作为上下文属性。即可认为每个不同字串具有不同的哈希值,则哈希值相等时就认为两个字串相等,可以不再进行进一步的文本内容比较。
在这种实施方式中,若待匹配内容为UI内容:待匹配字串的标识属性即为UI内容的标识属性,两者一致。待匹配字串的组件名属性可以理解为待匹配内容所来自的组件的属性,而UI内容可能来自组件、文件或者模块,因此,通过获取UI内容所在组件、文件或者模块的标识,便能够确定待匹配字串的组件名属性。待匹配字串的上下文属性可以包括待匹配字串的上句和/或下句,若待匹配字串为待匹配内容的中间字串,则包括上文和下文,若待匹配字串为待匹配内容的首个字串,则仅包括下文;若待匹配字串为末个字串的情况,则仅包括上文。上下文属性可以通过哈希值标识,因此,通过获取待匹配字串的上一句文本和下一句文本的哈希值,便能获取到待匹配字串的上下文属性,需要注意的是,若待匹配字串没有对应的上一句文本或者下一句文本,其上下文属性可以标记为空属性。例如:仅记录上句时,记录上句的hash(哈希值),null(空)表示首句;同时记录上下句时,采用组合(p,n)分别记录上句和下句的hash。p为null时,表示待匹配字串为首句,n为null时,表示待匹配字串为末句。
若待匹配内容为UA内容:UA内容不包括标识属性和组件名属性,可以将待匹配字串的标识属性和组件名属性都标记为空属性,例如:标识属性=null(也可以表示待匹配字串属于UA),组件名属性=null(也可以标识待匹配字串属于UA)。在这种情况下,待匹配字串的上下文属性与UI内容对应的上下文属性的获取的实施方式一致。在本申请实施例中,针对不同的待匹配内容,采用不同的属性获取方式,对于没有某项属性信息的待匹配内容,可以将该项属性标记为空属性,以便于后续能够基于属性信息进行有效地匹配。
进一步地,在步骤103中获取到待匹配字串的属性信息后,执行步骤104,将待匹配字串的属性信息和预设翻译记忆库中的参考字串的属性信息进行匹配,确定待匹配字串与参考字串的匹配类型。
在步骤104中,可以理解,对于预设翻译记忆库中的各个参考字串(源文),不管是UI还是UA,也对应设置有属性信息。因此,将待匹配字串与参考字串的属性信息进行匹配,便能够确定待匹配字串与参考字串的匹配类型。可以理解,待匹配字串与参考字串的匹配类型以及参考字串均为内容匹配的结果。
基于前述实施例中介绍过的各个属性信息,在匹配时,可以采用:先匹配文本属性,然后再匹配附加属性的方式。因此,作为一种可选的实施方式,步骤104包括:确定待匹配字串和参考字串之间的文本属性的匹配程度;若文本属性的匹配程度为近似匹配,确定待匹配字串与参考字串的匹配类型为模糊匹配,并根据文本属性的匹配程度确定模糊匹配率;若文本属性的匹配程度为完全匹配,确定待匹配字串和参考字串之间的附加属性的匹配关系;根据附加属性的匹配关系和预设的匹配类型与附加属性的匹配关系之间的对应关系,确定待匹配字串与参考字串的匹配类型。
在这种实施方式中,如果待匹配字串与参考字串的文本属性完全匹配或者近似匹配,可确定其文本属性具有匹配关系,此时可分为两种情况:第一种:文本属性近似匹配,则确定待匹配字串与参考字串的匹配类型为模糊匹配,并且还可以给出对应的模糊匹配率(比如百分之90)。第二种:文本属性为完全匹配,则先确定待匹配字串和参考字串之间的附加属性的匹配程度,然后再依据预设的对应关系,确定待匹配字串与参考字串的匹配类型。
其中,预设的对应关系可以理解为:预设的各种匹配类型与不同的属性匹配情况(情况)之间的对应关系,比如:假设附加属性包括前述实施例中所述的三个属性,匹配类型一:需要附加属性中的三个属性都匹配;匹配类型二:需要附加属性中的指定两个属性匹配;匹配类型三:需要附加属性中的某个特定属性匹配。
在本申请实施例中,在确定匹配类型时,先基于文本属性确定初步的匹配类型,再基于初步的匹配类型和附加属性确定进一步的匹配类型,通过两种不同的属性进行两次匹配类型的确定,使最终确定出的匹配类型能够更准确。
为了便于理解,接下来对步骤104中,待匹配字串与参考字串之间的不同匹配情况以及对应的匹配类型,进行示例性举例。
在前述实施例中提到,上下文属性可以采用仅记录上文哈希值的方式,也可以采用记录上文和下文的哈希值的组合的方式,在这两种方式下,上下文属性的匹配情况也不相同。
对于第一种可选的实施方式,上下文属性仅记录上句哈希值时,匹配上下文属性时,只需匹配上句哈希值。
对于第二种可选的实施方式,上下文属性记录上句哈希值和下句哈希值的组合(p,n)时,匹配上下文属性时,需要同时匹配上句和下句的哈希值。匹配情况可以如表1所示,其中,Eq表示相同,not null表示不为空属性,Not Eq表示不相同,Any表示任意匹配结果。从表1可以看出,不同的上句哈希值和下句哈希值的匹配结果,最终的上下文匹配结果也是不相同的。
Figure BDA0002724829360000111
表1
请参照表2,为本申请实施例所提供匹配规则的一种可选的实施方式,对各个匹配类型进行分析如下:
当匹配类型为IM(ID Match,ID匹配)时,待匹配字串与参考字串的标识属性和文本属性均相同(具有匹配关系),且不为空属性,说明待匹配字串和参考字串都为UI,基于相同的标识属性和组件名属性可以直接确定待匹配字串和参考字串完全匹配。
当匹配类型为CM(Context Match,上下文匹配)-1时,待匹配字串和参考字串的组件名和标识均为空属性,上下文属性和文本属性相同,说明待匹配字串和参考字串均为UA,此时待匹配字串与参考字串之间满足上下文匹配的关系(非首句或非首末句)。需要注意的是,对于这种匹配类型,若上下文属性采用上文哈希值,则是上文哈希值匹配结果为:Eq(not null),则可以确定为非首句的上下文匹配;若上下文属性采用上文哈希值和下文哈希值的组合,上下文属性之间的匹配结果为:Eq(not null),参照表1,此时,上句和下句的哈希值匹配情况均为Eq(not null),因而可以是非首末句的上下文匹配(其他几种匹配类型中,对应上下文属性的匹配情况以及对应的匹配结果与该种匹配类型中的上下文属性匹配情况和匹配结果同理)。
当匹配类型为100-1时,待匹配字串和参考字串的文本属性相同,其他属性均为空属性,此时待匹配字串和参考字串都为UA,那么可确认两者为首句或首末句,且完全匹配。
当匹配类型为CM-2时,待匹配字串和参考字串可以是:UI-UI,UI-UA,UA-UI的任意一种对应关系,文本属性相同;上下文属性相同,且不为空;另外两种属性不相同,可确定为上下文匹配(非首句或非首末句)。
当匹配类型为100-2时,待匹配字串和参考字串可以是:UI-UI,UI-UA,UA-UI的任意一种对应关系,文本属性相同;上下文属性相同,且为空;另外两种属性不相同,可确定为上下文匹配(首句或首末句)。
当匹配类型为100时,待匹配字串和参考字串可以是:UI-UI,UI-UA,UA-UI的任意一种对应关系,文本属性相同,上下文属性不相同,另外两者属性的影响不考虑,可确定为上下文不一致,但文本一致的匹配关系。
当匹配类型为FM(Fuzzy Match,模糊匹配)时,待匹配字串和参考字串的文本属性不相同,其他属性的影响可以不考虑,其模糊匹配率为两者的文本属性的匹配率。
Figure BDA0002724829360000131
表2
进一步地,在步骤105中确定待匹配字串和参考字串的匹配类型后,该方法还包括:展示参考字串和匹配类型;将参考字串的翻译内容显示在待匹配字串对应的译文区域。
在本申请实施例中,展示参考字串和匹配类型,并将参考字串的翻译内容进行显示,以便于用户基于匹配类型对参考字串或者其翻译内容进行查看或者其他利用,提高参考字串的利用率。
其中,若参考字串的数量为多个,展示参考字串和匹配类型可以包括:根据每个参考字串的匹配类型和预设的匹配类型评分规则确定每个参考字串的匹配得分;按照预设的匹配得分排列顺序展示多个参考字串和多个参考字串对应的匹配类型。
在这种实施方式中,不同的匹配类型对应的参考字串可以设置对应的匹配得分,基于该匹配得分,可以有序地展示多个参考字串和多个参考字串对应的匹配类型,使用户更直观地看出各个参考字串的匹配情况。对于该匹配类型评分规则,可以理解为不同的匹配类型对应的匹配得分,其可以根据不同的匹配类型对应的参考价值来决定,比如:IM类型的参考字串的参考价值肯定是最高的,其匹配得分可以为最高;FM的参考字串的参考价值肯定是最低的,其匹配得分可以为最低。作为一种可选的实施方式,请参照表3,为本申请实施例提供的各个匹配类型对应的匹配得分示例,可以看出,IM的匹配得分最高,FM的匹配得分可以是0-99之间,取决于实际的匹配率,CM-1的匹配得分高于CM-2的匹配得分,100-1的匹配得分高于100-2的匹配得分,100-2的匹配得分高于100,CM类型的匹配得分高于100类型的匹配得分。
匹配类型 匹配得分
IM 140
CM-1 120
100-1 108
CM-2 110
100-2 105
100 100
FM 99-0
表3
在本申请实施例中,在展示匹配类型时,先通过预设的匹配类型评分规则确定每个参考字串的匹配得分,然后再基于该匹配得分进行参考字串和匹配类型的显示(比如按照匹配得分从高到低显示参考字串),使最终显示的结果更有层次性(不是杂乱,没有规律的),便于对参考字串进行有效地复用。
在本申请实施例中,匹配类型还可以对应设置一句多译罚分,该一句多译罚分可以代表同一字串的不同译文的参考性,一句多译罚分越高,对应的字串的参考性越低。基于一句多译罚分,当得到匹配得分后,该方法还可以包括:为匹配得分高于预设值的参考字串添加用于表征一句多译的标识,并根据匹配得分高于预设值的参考字串对应的匹配类型对应的一句多译罚分为匹配得分高于预设值的参考字串设置匹配率。
在这种实施方式中,可以理解,若某个匹配得分高于预设值,且对应多个参考字串,可以说明这多个参考字串可以是同一个字串的多种翻译方式,则可以为这些参考字串添加用于表征一句多译的标识。该预设值可以是100,也可以是根据实际情况设置的其他值。在添加标识后,还可以基于一句多译罚分为参考字串设置匹配率。作为一种可选的设置规则,具有一句多译标识的参考字串的匹配率可以是:100-一句多译罚分,比如:参考字串的一句多译罚分为0.1,则该参考字串的匹配率为99.90。
作为举例,请参照表4,为一句多译罚分的一种可选的设置方式,该表中的数值仅作为一种示例性举例,在实际应用中,可以根据具体的应用场景进行灵活地设置。
Figure BDA0002724829360000151
Figure BDA0002724829360000161
表4
在本申请实施例中,根据字串的匹配情况,通过基于匹配类型中设置的一句多译罚分对一句多译情况和对应的匹配率进行标记,则翻译记忆库中的数据具有相应的标记,进而避免翻译记忆库中的数据混乱。
在前述实施例中提到,对于待匹配字串的与参考字串的匹配类型,基于不同的应用场景,除了译文展示的用途,还可以进行译文的更新或者追加。因此,作为一种可选的实施方式,该方法还包括:接收参考字串的更新指令;更新指令中包括待匹配字串;在确定匹配类型为目标匹配类型时,将参考字串替换为待匹配字串;在确定匹配类型不是目标匹配类型时,根据待匹配字串在翻译记忆库中创建新的字串。
在这种实施方式中,待匹配字串相当于作为参考字串的更新译文,为了实现其更新,先按照步骤101-步骤104的流程确定两者的匹配类型,然后基于匹配类型来进行更新。其中,目标匹配类型可以是满足译文的替换条件的匹配类型。比如:全部属性信息都匹配(即IM类型)或文本属性及上下文属性匹配,其他属性都为空(即CM-1类型)。在待匹配字串与参考字串的匹配关系满足这两种类型时,可以将参考字串替换为待匹配字串,实现译文的更新。当然,若待匹配字串不满足目标匹配类型的条件,将待匹配字串作为新的译文创建到参考字串对应的源文下,使其作为追加的译文。
在本申请实施例中,还可以基于匹配情况选择替换或者创建字串的操作,实现翻译记忆库中的译文更新或追加。
基于同一发明构思,请参照图2,本申请实施例中还提供一种内容匹配的装置200,包括获取模块201、断句模块202以及匹配模块203。
获取模块201用于:获取待匹配内容;所述待匹配内容为UI内容或UA内容。断句模块202用于根据预设断句规则,将所述待匹配内容拆分为待匹配字串。获取模块201还用于:根据所述待匹配字串对应的待匹配内容获取所述待匹配字串的属性信息。匹配模块203用于将所述待匹配字串的属性信息和预设翻译记忆库中的参考字串的属性信息进行匹配,确定所述待匹配字串与所述参考字串的匹配类型。
可选的,匹配模块203具体用于:确定所述待匹配字串和所述参考字串之间的文本属性的匹配程度;若所述文本属性的匹配程度为近似匹配,确定所述待匹配字串与所述参考字串的匹配类型为模糊匹配,并根据所述文本属性的匹配程度确定模糊匹配率;若所述文本属性的匹配程度为完全匹配,确定所述待匹配字串和所述参考字串之间的附加属性的匹配关系;根据所述附加属性的匹配关系和预设的匹配类型与附加属性的匹配关系之间的对应关系,确定所述待匹配字串与所述参考字串的匹配类型。
可选的,获取模块201具体用于:若所述待匹配内容为UI内容,获取所述待匹配字串的上一句文本和下一句文本的哈希值,作为所述待匹配字串的上下文属性;获取所述UI内容的标识属性作为所述待匹配字串的标识属性;获取所述UI内容所在组件、文件或者模块的标识,作为所述待匹配字串的组件名属性;若所述待匹配内容为UA内容,获取所述待匹配字串的上一句文本和下一句文本的哈希值,作为所述待匹配字串的上下文属性;将所述待匹配字串的标识属性标记为空属性;将所述待匹配字串的组件名属性标记为空属性。
可选的,内容匹配的装置200还包括展示模块,用于展示所述参考字串和所述匹配类型;将所述参考字串的翻译内容显示在所述待匹配字串对应的译文区域。
可选的,展示模块具体用于:根据每个所述参考字串的匹配类型和预设的匹配类型评分规则确定每个所述参考字串的匹配得分;按照预设的匹配得分排列顺序展示多个所述参考字串和多个所述参考字串对应的匹配类型。
可选的,匹配模块203还用于:为所述匹配得分高于预设值的参考字串添加用于表征一句多译的标识,并根据所述匹配得分高于预设值的参考字串对应的匹配类型对应的一句多译罚分为所述匹配得分高于预设值的参考字串设置匹配率。
可选的,内容匹配的装置200还包括更新模块,用于:接收所述参考字串的更新指令;所述更新指令中包括所述待匹配字串;在确定所述匹配类型为目标匹配类型时,将所述参考字串替换为所述待匹配字串;在确定所述匹配类型不是所述目标匹配类型时,根据所述待匹配字串在所述翻译记忆库中创建新的字串。
前述实施例中的内容匹配的方法中的各实施方式和具体实例同样适用于图2的装置,通过前述对内容匹配的方法的详细描述,本领域技术人员可以清楚地知道图2中的内容匹配的装置200的实施方法,所以为了说明书的简洁,在此不再详述。
基于同一发明构思,本申请实施例还提供一种可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被计算机运行时执行上述任一实施方式的内容匹配的方法。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (9)

1.一种内容匹配的方法,其特征在于,包括:
获取待匹配内容;所述待匹配内容的类型包括:UI内容和UA内容;所述UI内容为用户界面内容,所述UA内容为用户帮助内容;
根据预设断句规则,将所述待匹配内容拆分为待匹配字串;
根据所述待匹配字串对应的待匹配内容获取所述待匹配字串的属性信息;所述属性信息包括附加属性,所述附加属性包括:上下文属性、标识属性和组件名属性;
将所述待匹配字串的属性信息和预设翻译记忆库中的参考字串的属性信息进行匹配,确定所述待匹配字串与所述参考字串的匹配类型;
所述根据所述待匹配字串对应的待匹配内容获取所述待匹配字串的属性信息,包括:
若所述待匹配内容为UI内容,获取所述待匹配字串的上一句文本和下一句文本的哈希值,作为所述待匹配字串的上下文属性;获取所述UI内容的标识属性作为所述待匹配字串的标识属性;获取所述UI内容所在组件、文件或者模块的标识,作为所述待匹配字串的组件名属性;
若所述待匹配内容为UA内容,获取所述待匹配字串的上一句文本和下一句文本的哈希值,作为所述待匹配字串的上下文属性;将所述待匹配字串的标识属性标记为空属性;将所述待匹配字串的组件名属性标记为空属性。
2.根据权利要求1所述的方法,其特征在于,所述属性信息还包括:文本属性。
3.根据权利要求2所述的方法,其特征在于,所述将所述待匹配字串的属性信息和预设翻译记忆库中的参考字串的属性信息进行匹配,确定所述待匹配字串与所述参考字串的匹配类型,包括:
确定所述待匹配字串和所述参考字串之间的文本属性的匹配程度;
若所述文本属性的匹配程度为近似匹配,确定所述待匹配字串与所述参考字串的匹配类型为模糊匹配,并根据所述文本属性的匹配程度确定模糊匹配率;
若所述文本属性的匹配程度为完全匹配,确定所述待匹配字串和所述参考字串之间的附加属性的匹配关系;
根据所述附加属性的匹配关系和预设的匹配类型与附加属性的匹配关系之间的对应关系,确定所述待匹配字串与所述参考字串的匹配类型。
4.根据权利要求1所述的方法,其特征在于,在所述将所述待匹配字串的属性信息和预设翻译记忆库中的参考字串的属性信息进行匹配,确定所述待匹配字串与所述参考字串的匹配类型,所述方法还包括:
展示所述参考字串和所述匹配类型;
将所述参考字串的翻译内容显示在所述待匹配字串对应的译文区域。
5.根据权利要求4所述的方法,其特征在于,所述参考字串的数量为多个;所述展示所述参考字串和所述匹配类型,包括:
根据每个所述参考字串的匹配类型和预设的匹配类型评分规则确定每个所述参考字串的匹配得分;
按照预设的匹配得分排列顺序展示多个所述参考字串和多个所述参考字串对应的匹配类型。
6.根据权利要求5所述的方法,其特征在于,所述匹配类型对应设置有一句多译罚分;所述方法还包括:
为所述匹配得分高于预设值的参考字串添加用于表征一句多译的标识,并根据所述匹配得分高于预设值的参考字串对应的匹配类型对应的一句多译罚分为所述匹配得分高于预设值的参考字串设置匹配率。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收所述参考字串的更新指令;所述更新指令中包括所述待匹配字串;
在确定所述匹配类型为目标匹配类型时,将所述参考字串替换为所述待匹配字串;
在确定所述匹配类型不是所述目标匹配类型时,根据所述待匹配字串在所述翻译记忆库中创建新的字串。
8.一种内容匹配的装置,其特征在于,包括:
获取模块,用于获取待匹配内容;所述待匹配内容的类型包括:UI内容和UA内容;所述UI内容为用户界面内容,所述UA内容为用户帮助内容;
断句模块,用于根据预设断句规则,将所述待匹配内容拆分为待匹配字串;
所述获取模块还用于:根据所述待匹配字串对应的待匹配内容获取所述待匹配字串的属性信息;所述属性信息包括附加属性,所述附加属性包括:上下文属性、标识属性和组件名属性;
匹配模块,用于将所述待匹配字串的属性信息和预设翻译记忆库中的参考字串的属性信息进行匹配,确定所述待匹配字串与所述参考字串的匹配类型;
所述获取模块具体用于:
若所述待匹配内容为UI内容,获取所述待匹配字串的上一句文本和下一句文本的哈希值,作为所述待匹配字串的上下文属性;获取所述UI内容的标识属性作为所述待匹配字串的标识属性;获取所述UI内容所在组件、文件或者模块的标识,作为所述待匹配字串的组件名属性;
若所述待匹配内容为UA内容,获取所述待匹配字串的上一句文本和下一句文本的哈希值,作为所述待匹配字串的上下文属性;将所述待匹配字串的标识属性标记为空属性;将所述待匹配字串的组件名属性标记为空属性。
9.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被计算机运行时执行如权利要求1-7任一项所述的方法。
CN202011099984.5A 2020-10-14 2020-10-14 一种内容匹配的方法及装置、可读存储介质 Active CN112232091B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011099984.5A CN112232091B (zh) 2020-10-14 2020-10-14 一种内容匹配的方法及装置、可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011099984.5A CN112232091B (zh) 2020-10-14 2020-10-14 一种内容匹配的方法及装置、可读存储介质

Publications (2)

Publication Number Publication Date
CN112232091A CN112232091A (zh) 2021-01-15
CN112232091B true CN112232091B (zh) 2021-11-16

Family

ID=74113688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011099984.5A Active CN112232091B (zh) 2020-10-14 2020-10-14 一种内容匹配的方法及装置、可读存储介质

Country Status (1)

Country Link
CN (1) CN112232091B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984540A (zh) * 2018-07-23 2018-12-11 传神语联网网络科技股份有限公司 一种辅助翻译的方法及辅助翻译系统
CN111652006A (zh) * 2020-06-09 2020-09-11 北京中科凡语科技有限公司 一种计算机辅助翻译方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1661593B (zh) * 2004-02-24 2010-04-28 北京中专翻译有限公司 一种计算机语言翻译方法及其翻译系统
US7698126B2 (en) * 2005-03-08 2010-04-13 Microsoft Corporation Localization matching component
GB2474839A (en) * 2009-10-27 2011-05-04 Sdl Plc In-context exact matching of lookup segment to translation memory source text
TW201214155A (en) * 2010-09-21 2012-04-01 Inventec Corp Article based paragraphic online translating system and method thereof
CN107844470B (zh) * 2016-09-18 2021-04-30 腾讯科技(深圳)有限公司 一种语音数据处理方法及其设备
CN109408833A (zh) * 2018-10-30 2019-03-01 科大讯飞股份有限公司 一种翻译方法、装置、设备及可读存储介质
CN111199160A (zh) * 2018-10-31 2020-05-26 西安欧思奇软件有限公司 即时通话语音的翻译方法、装置以及终端
CN111143074B (zh) * 2019-12-30 2024-04-09 文思海辉智科科技有限公司 一种翻译文件的分配方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984540A (zh) * 2018-07-23 2018-12-11 传神语联网网络科技股份有限公司 一种辅助翻译的方法及辅助翻译系统
CN111652006A (zh) * 2020-06-09 2020-09-11 北京中科凡语科技有限公司 一种计算机辅助翻译方法及装置

Also Published As

Publication number Publication date
CN112232091A (zh) 2021-01-15

Similar Documents

Publication Publication Date Title
CN110447035B (zh) 结构化用户数据文件中用户内容模糊
CN110532797A (zh) 大数据的脱敏方法和系统
US8190613B2 (en) System, method and program for creating index for database
US8126698B2 (en) Technique for improving accuracy of machine translation
CN111177184A (zh) 基于自然语言的结构化查询语言转换方法、及其相关设备
CN117195307A (zh) 针对隐私敏感用户内容的可配置注释
US9959340B2 (en) Semantic lexicon-based input method editor
US20180293302A1 (en) Natural question generation from query data using natural language processing system
CN110929125B (zh) 搜索召回方法、装置、设备及其存储介质
US11250035B2 (en) Knowledge graph generating apparatus, method, and non-transitory computer readable storage medium thereof
CN105589894B (zh) 文档索引建立方法和装置、文档检索方法和装置
CN107168966B (zh) 一种搜索引擎索引构建方法及装置
CN111950263B (zh) 一种日志解析方法、系统及电子设备
CN107526742B (zh) 用于处理多语言文本的方法和设备
US20160062965A1 (en) Generation of parsable data for deep parsing
US20200278971A1 (en) Document retrieval apparatus and document retrieval method
CN109740125B (zh) 用于文件比较的更新查找方法、装置、存储介质和设备
US7240066B2 (en) Unicode transitional code point database
CN110147673B (zh) 一种基于文本和源代码符号提取的漏洞位置标注方法和装置
US11301441B2 (en) Information processing system and information processing method
KR101565367B1 (ko) 숫자정규화를 이용한 문서 표절률 산출 방법
CN107729486B (zh) 一种视频搜索方法及装置
CN112232091B (zh) 一种内容匹配的方法及装置、可读存储介质
CN113177407A (zh) 数据字典的构建方法、装置、计算机设备及存储介质
Tamames Text detective: a rule-based system for gene annotation in biomedical texts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant