CN115066679A

CN115066679A - 一种提取专业领域内的自造术语的方法及系统

Info

Publication number: CN115066679A
Application number: CN202080003897.7A
Authority: CN
Inventors: 李延
Original assignee: Metis IP Suzhou LLC
Current assignee: Metis IP Suzhou LLC
Priority date: 2020-03-25
Filing date: 2020-03-25
Publication date: 2022-09-16
Anticipated expiration: 2040-03-25
Also published as: WO2021189291A1; CN115066679B; US20230118640A1

Abstract

本申请实施例公开了一种提取专业领域内的自造术语的方法。所述方法包括从文本中提取候选术语；确定所述候选术语在所述文本中出现情况的第一数据；确定所述候选术语的词元；确定所述词元在通用语料中出现情况的第二数据；确定所述词元在专业领域语料中出现情况的第三数据；以及基于参考数据，确定所述候选术语为自造术语的可能性，其中所述参考数据包括所述第一数据、所述第二数据、所述第三数据。

Description

一种提取专业领域内的自造术语的方法及系统

技术领域

本申请涉及自然语言处理领域，更具体地涉及术语提取方法及系统。

背景技术

随着互联网技术的发展以及其他新技术的不断涌现，一些专业领域内的术语不断扩大和更新。按照传统的人工收集专业领域的术语的方法已无法满足现今对术语提取的要求，自动识别并提取专业领域内的术语成为必然。但在专业领域中的一些术语为作者自己创造出来的术语(可称为“自造术语”)，这些自造术语有别于现有的专业术语并难以自动收集。因此，通过提供一种提取专业领域内自造术语的方法和系统，可以有效识别并提取专业领域中的自造术语，在信息提取、信息检索、机器翻译、文本分类等中均具有重要意义。

发明内容

本申请一方面提供一种提取专业领域内的自造术语的方法。所述方法可以包括从文本中提取候选术语；确定所述候选术语在所述文本中出现情况的第一数据；确定所述候选术语的词元；确定所述词元在通用语料中出现情况的第二数据；确定所述词元在专业领域语料中出现情况的第三数据；以及基于参考数据，确定所述候选术语为自造术语的可能性，其中所述参考数据包括所述第一数据、所述第二数据、所述第三数据。

在一些实施例中，所述提取待处理文本中的候选术语可以包括通过对所述文本进行分词处理，得到分词组合；从所述分词组合中去除属于专业领域语料中的分词组合；以及从去除后的所述分词组合中确定所述候选术语。

在一些实施例中，所述参考数据还可以包括词性结构。

在一些实施例中，所述第一数据可以包括第一频率，其中第一频率包括所述候选术语在所述文本中的不同部分中的频率和所述候选术语在所述文本中的频率中的至少一个。

在一些实施例中，所述第一数据还可以包括第一次数，其中所述第一次数所述候选术语在所述文本中的出现次数。

在一些实施例中，基于参考数据，确定所述候选术语为自造术语的可能性可以包括：根据规则确定所述候选术语为自造术语的可能性。

在一些实施例中，所述第二数据可以包括所述词元在通用语料中出现的第二频率，所述第三数据可以包括所述词元在专业领域语料中出现的第三频率。所述规则可以包括：所述第一频率大于第一阈值；所述第二频率小于第二阈值；以及所述第三频率与所述第二频率的比值大于第三阈值。

在一些实施例中，所述规则还可以包括所述候选术语的词性结构与预设词性结构的匹配度大于第四阈值。

在一些实施例中，基于参考数据，确定所述候选术语为自造术语的可能性可以包括：基于参考数据，根据训练后的机器学习模型确定所述候选术语为自造术语的可能性。

在一些实施例中，所述训练后的机器学习模型可以通过一个训练过程确定，所述训练过程包括：获取多个训练样本；提取多个训练样本中的每个训练样本的多个特征；以及基于所述多个特征训练初始机器学习模型，生成训练后的机器学习模型。

本申请的实施例之一提供一种提取专业领域内的自造术语的系统。所述系统可以包括提取模块、确定模块和训练模块。所述提取模块可以用于从文本中提取候选术语。所述确定模块可以用于确定所述候选术语在所述文本中出现情况的第一数据；确定所述候选术语的词元；确定所述词元在通用语料中出现情况的第二数据；确定所述词元在专业领域语料中出现情况的第三数据；以及基于参考数据，确定所述候选术语为自造术语的可能性，其中所述参考数据包括所述第一数据、所述第二数据、所述第三数据。

在一些实施例中，所述提取模块可以用于通过对所述文本进行分词处理，得到分词组合；从所述分词组合中去除属于专业领域语料中的分词组合；以及从去除后的所述分词组合中确定所述候选术语。

在一些实施例中，所述参考数据还可以包括词性结构。

在一些实施例中，所述第一数据还可以包括所述候选术语在所述文本中的出现次数。

在一些实施例中，所述确定模块可以用于：根据规则确定所述候选术语为自造术语的可能性。

在一些实施例中，所述第二数据可以包括所述词元在通用语料中出现的第二频率，所述第三数据包括所述词元在专业领域语料中出现的第三频率。所述规则包括：所述第一频率大于第一阈值；所述第二频率小于第二阈值；以及所述第三频率与所述第二频率的比值大于第三阈值。

在一些实施例中，所述确定模块可以用于：基于参考数据，根据训练后的机器学习模型确定所述候选术语为自造术语的可能性。

在一些实施例中，所述训练后的机器学习模型可以由训练模块通过一个训练过程确定，所述训练过程包括获取多个训练样本；提取多个训练样本中的每个训练样本的多个特征；和基于所述多个特征训练初始机器学习模型，生成训练后的机器学习模型。

本申请实施例之一提供一种提取专业领域内的自造术语的系统，可以包括至少一个存储介质和至少一个处理器。所述至少一个存储介质可以用于存储计算机指令。所述至少一个处理器可以用于执行所述计算机指令，以实现所述的提取专业领域内的自造术语的方法。

本申请实施例之一提供一种计算机可读存储介质，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，所述计算机可以执行提取专业领域内的自造术语的方法。

附图说明

本申请将以示例性实施例的方式进一步说明，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，

其中：

图1是根据本申请一些实施例所示的提取专利领域内的自造术语的系统的应用

场景示例图；

图2是根据本申请一些实施例所示的提取专利领域内的自造术语的系统的示例

性模块图；

图3是根据本申请一些实施例所示的确定候选术语为自造术语的可能性的示例

性流程图；

图4是根据本申请一些实施例所示的训练机器学习模型的示例性流程图。

具体实施方式

以下描述是为了使本领域的普通技术人员能够实施和利用本申请，并且该描述是在特定的应用场景及其要求的环境下提供的。对于本领域的普通技术人员来讲，显然可以对所公开的实施例作出各种改变，并且在不偏离本申请的原则和范围的情况下，本申请中所定义的普遍原则可以适用于其它实施例和应用场景。因此，本申请并不限于所描述的实施例，而应该被给予与权利要求一致的最广泛的范围。

本文所使用的术语仅是为了描述特定的示例性实施例，而不是要进行限制。如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可以包括复数。还应当理解，如在本申请说明书中，术语"包括"、"包含"仅提示存在所述特征、整体、步骤、操作、组件和/或部件，但并不排除存在或添加一个或以上其它特征、整体、步骤、操作、组件、部件和/或其组合的情况。

根据以下对附图的描述，本申请的这些和其它的特征、特点以及相关结构元件的功能和操作方法，以及部件组合和制造经济性，可以变得更加显而易见，这些附图都构成本申请说明书的一部分。然而，应当理解的是，附图仅仅是为了说明和描述的目的，并不旨在限制本申请的范围。应当理解的是，附图并不是按比例绘制的。

本申请中使用了流程图用来说明根据本申请的一些实施例的系统所执行的操作。应当理解的是，流程图中的操作可以不按顺序执行。相反，可以按照倒序或同时处理各种步骤。同时，也可以将一个或以上其他操作添加到这些流程图中。也可以从流程图中删除一个或以上操作。

图1是根据本申请一些实施例所示的提取专利领域内的自造术语的系统的应用场景示意图。

在一些实施例中，提取专业领域内的自造术语的系统100(在本申请中可简称为系统100)可用于判断不同专业文本中术语为自造术语的概率。在一些实施例中，系统100可用于提取不同专业领域文本中的自造术语。系统100可应用于机器翻译、术语自动分类与提取、术语标注、术语翻译、构建不同类别术语库、文本分类、文本构建、文本挖掘、语义分析等，或其组合。在一些实施例中，所述系统100可以是具有计算能力的在线系统。例如，系统100可以是基于web的系统。又例如，系统100可以是基于应用的系统。

如图1所示，系统100可以包括至少一个计算设备110、网络120、存储设备 130、和/或终端设备140。

所述计算设备110可以包括各种计算机，例如，服务器、台式计算机、笔记本电脑等。在一些实施例中，系统100也可以包括多台计算设备，所述计算设备可以以各种形式(例如，网络120)连接构成一个计算平台。

所述计算设备100可以包括处理设备112，所述处理设备处理与系统100相关的信息和/或数据以执行本申请的功能。例如，处理设备112可以从文本中提取术语。又例如，处理设备112可以从所述候选术语中确定候选术语为自造术语的可能性。在一些实施例中，处理设备112可以包括一个或多个处理设备(例如，单核处理设备或多核处理器)。仅作为示例，处理设备112可以包括中央处理单元(CPU)、专用集成电路 (ASIC)、专用指令集处理器(ASIP)，图形处理单元(GPU)、物理处理单元(PPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、控制器、微控制器单元、精简指令集计算机(RISC)、微处理器等或其任何组合。

网络120可以连接系统100的各组成部分(例如，计算设备110、存储设备1330、终端设备140)，使得各部分之间可以进行通讯。网络120可以是任意类型的有线网络或无线网络或其组合。仅作为示例，网络120可以包括缆线网络、有线网络、光纤网络、远程通信网络、内部网络、互联网、局域网络(LAN)、广域网络(WAN)、无线局域网络(WLAN)、城域网(MAN)、公共开关电话网络(PSTN)、蓝牙网络、ZigBee 网络、近场通讯(NFC)网络等或其任意组合。在一些实施例中，网络120可以包括至少一个网络接入点。例如，网络120可以包括有线或无线网络接入点，如基站和/或互联网交换点120-1、120-2、……，通过系统100的至少一个部件可以连接到网络120以交换数据和/或信息。

存储设备130可以存储数据和/或指令。在一些实施例中，存储设备130可以存储从计算设备110(例如，处理设备112)中获取的数据。在一些实施例中，存储设备 130可以包括大容量存储器、可移动存储器、易失性读写存储器、只读存储器(ROM) 等，或其任何组合。示例性大容量存储设备可以包括磁盘、光盘、固态驱动器等。示例性可移动存储设备可以包括闪存驱动器、软盘、光盘、存储卡、磁盘、磁带等。示例性易失性读写存储器可以包括随机存取存储器(RAM)。示例性RAM可以包括动态RAM (DRAM)、双倍速率同步动态RAM(DDR SDRAM)、静态RAM(SRAM)、晶闸管RAM(T-RAM)和零电容器RAM(Z-RAM)。示例性ROM可以包括掩码ROM(MROM)、可编程ROM(PROM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、光盘ROM(CD-ROM)。在一些实施例中，存储设备130可以在云平台上实现。仅作为示例，云平台可以包括私有云、公共云、混合云、社区云、分布式云、内云、多云等，或其任何组合。在一些实施例中，存储设备130可以是计算设备110中的一部分。

系统100还可以包括终端设备140。所述终端设备140可以包括用于具有信息接收和/或发送功能的终端设备。所述终端设备140可以包括计算机、手机、文字扫瞄设备、显示设备、打印机等或其组合。

在一些实施例中，系统100可以从存储设备130或者通过网络120获取待处理文本。处理设备112可以执行系统100的指令，例如，处理设备112可以从待处理文本中确定候选术语。又例如，处理设备112可以确定候选术语为自造术语的可能性。对于自造术语可能性的判断结果，可以通过终端设备140输出显示，可以保存至存储设备 130中，和/或可以直接由处理设备112执行后续指令进行应用(例如，可以对自造术语的进行机器翻译)。

在系统100中，所使用的程序指令和/或数据，可能是通过其他过程生成的，比如机器学习模型的训练过程。这些训练过程可以是在上述计算系统100中进行，也可以是在其他系统中进行，并将指令和/或数据迁移到上述计算系统100中。例如，可以使用机器学习模型来确定候选术语是否为自造术语的可能性。使用的机器学习模型可以是在另外的处理设备中训练好，然后迁移至处理设备112中。

图2是根据本申请一些实施例所示的提取专利领域内的自造术语的系统的示例性模块图。

如图2所示，系统100可以包括提取模块210、确定模块220、训练模块230。

提取模块210可以用于从文本中提取一个或多个候选术语。所述文本可以是任一专业领域的文本。在一些实施例中，提取模块210可以通过对所述文本进行分词处理，得到分词组合。提取模块210可以从所述分词组合中去除属于专业领域语料中的分词组合。提取模块210可以从去除后的所述分词组合中确定所述候选术语。关于提取模块210的更多描述可以参考图3的步骤310及其描述。

确定模块220可以用于确定多个候选术语中的每个的一个或多个词元，例如，通过词形还原。在一些实施例中，确定模块220可以确定每个候选术语在所述文本中出现情况的第一数据。第一数据可以包括所述候选术语在所述文本中的不同部分中的频率和所述候选术语在所述文本中的频率中的至少一个。所述第一数据还可以包括所述候选术语在所述文本中的出现次数。在一些实施例中，确定模块220可以确定所述词元在通用语料中出现情况的第二数据。在一些实施例中，确定模块220可以确定所述词元在专业领域语料中出现情况的第三数据。在一些实施例中，确定模块220可以基于参考数据 (例如，第一数据、第二数据、第三数据、词性结构等)，确定每个候选术语为自造术语的可能性。例如，确定模块220可以基于参考数据，根据规则确定所述候选术语为自造术语的可能性。又例如，确定模块220可以基于参考数据，根据训练后的机器学习模型确定所述候选术语为自造术语的可能性。关于确定模块220的更多描述可以参考图3 的步骤320到步骤360及其描述。

训练模块230可以用于训练机器学习模型。所述机器学习模块可以是有监督机器学习模型，例如，分类模型。在一些实施例中，训练模块230可以获取多个训练样本。训练模块230可以提取多个训练样本中的每个训练样本的多个特征。训练模块230可以基于所述多个特征训练初始机器学习模型，生成训练后的机器学习模型。关于训练模块 230的更多描述可以参考图4及其描述。

应当理解，图2所示的系统及其模块可以利用各种方式来实现。例如，在一些实施例中，系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中，硬件部分可以利用专用逻辑来实现；软件部分则可以存储在存储介质中，由适当的指令执行。

需要注意的是，以上对于系统100及其模块的描述，仅为描述方便，并不能把本申请限制在所举实施例范围之内。对于本领域的技术人员来说，在本申请的教导下可以做出多种变化和修改。但是这种变形和修改均在本申请的保护范围之内。在一些实施例中，上述各个模块可以分成两个或多个单元。在一些实施例中，一个或多个模块可以省略。例如，训练模块230可以省略。机器学习模型可以在线下或其他系统中训练好在系统100中应用。

图3是根据本申请一些实施例所示的确定候选术语为自造术语的可能性的示例性流程图。在一些实施例中，流程300可以由处理设备(或处理设备112)实施。图3 中的处理设备指的是图1中的处理设备112。流程300可以包括以下所述的步骤。

在步骤310，处理设备(例如，提取模块210)可以从文本中提取一个或多个候选术语。

所述文本可以是任一专业领域的文本。所述专业领域可以包括某一特定的专业领域，例如，电学领域、通信领域、人工智能领域、餐饮领域、西餐领域、鸡的烹调技术领域、金融领域、债券领域、美国债券领域等，专业领域的范围大小不受限制。文本的格式包括但不限于doc、docx、pdf、txt、xlsx等。所述文本可以包括一句话、一段话、多段话、一篇或多篇文章等。所述文本可以包括专利文本、论文文本等。在一些实施例中，所述文本可以包括任何单一语言(例如，中文、英文、日文、韩文等)、相同语种的官方语言和地方语言(例如，简体中文、繁体中文)、相同语种的不同国家的语言(例如，英式英语和美式英语等)等，或上述语言的一种或多种的组合(例如，中文和英文混合)。

在一些实施例中，处理设备112可以通过多种方式获取所述文本。例如，处理设备112可以获取用户输入的文本。用户可以通过例如，键盘键入、手写输入、语音输入等输入文本。又例如，处理设备112可以通过导入文件的方式获取所述文本。再例如，处理设备112可以通过应用程序接口(API)获取所述文本。例如，可以从某一设备或网络(例如，网络120)上的存储区域直接读取所述文本。

术语(又称专业术语、技术术语、科学术语、科技术语)指的是在特定专业领域中代表一定概念的词语指称，一个术语可以表示一个概念。术语可以包括一个或多个词或词组。

候选术语指的是从所述文本中提取出来的可能成为自造术语的术语。自造术语指的是由用户(例如，某一专业领域内的人员)自己创造的在本专业领域可能未出现过或不常用的术语。在一些实施例中，所述候选术语不包括本专业领域内已出现过的术语。在一些实施例中，所述候选术语可以与已有的专业术语部分类似。例如，已有的专业术语可以是“固定结构”，候选术语可以是“卡槽结构”、“连接结构”等。

在一些实施例中，处理设备112可以对所述文本进行分割得到一个或多个句子。例如，处理设备112可以基于标点(例如，句号、分号)对文本进行句子分割以获得一个或多个句子。在一些实施例中，处理设备112可以对句子进行分词处理，以确定所述句子中的字或词。例如，对于中文文本，经过分词处理后得到的可以是一个汉字或一个词。对于英文文本，经过分词处理后得到的可以是一个英文单词。

在一些实施例中，处理设备112对不同的语言文本进行分词处理的方式可以不同。以英文文本为例，处理设备112可以根据空格将句子拆分为单词。例如，对“a fixed signidentification structure of a vehicle includes a fixed device”英文句子进行分词处理，可以得到英文单词“a”、“fixed”、“sign”，“identification”、“structure”、“of”、“a”、“vehicle”、“includes”、“a”、“fixed”、“device”。在一些实施例中，可以去掉上述文本中的停止词。示例性的停止词可以包括a、an、the、of、or the like等。例如，上述句子去掉停止词后可以包括英文单词“fixed”、“sign”，“identification”、“structure”、“vehicle”、“includes”、“fixed”、“device”。又例如，对“the user of the vehiclecannot determine the type of the vehicle”进行分词处理，可以得到“the”、“user”、“of”、“the”、“vehicle”、“cannot”、“determine”、“the”、“type”、“of”、“the”和“vehicle”。其中，“cannot”(或can’t)可以看成是一个词。

以中文文本为例，处理设备可以通过分词处理算法对所述中文文本进行分词处理。示例性的分词处理算法可以包括N-最短路径分词算法、基于n-gram model的分词算法、神经网络分词算法、CRF分词算法等或其任意组合(例如，神经网络分词算法与 CRF分词算法的组合)。以对“车辆的固定标志识别结构包括固定设备”进行分词为例，分词结果可以为“车辆”、“的”、“固定”、“标志”、“识别”、“结构”、“包括”、“固定”和“设备”。在一些实施例中，处理设备可以去掉上述文本中的停止词，得到“车辆”、“固定”、“标志”、“识别”、“结构”、“包括”、“固定”和“设备”。

在一些实施例中，处理设备可以根据所述文本的分词结果确定分词组合。分词组合指连续的若干个字或词的组合。例如，一个分词组合可以对应于一个分割后的词或字和/或两个或多个分割后的词或字。在一些实施例中，可以根据分词的结果，按一定的长度限制获得分词组合。例如，可以设置对应不同语言的分词组合长度阈值。在一些实施例中，所述长度阈值可以是最大词个数、最大字个数等。仅作为示例，最大词个数可以是4、5、6、7、8、9、10等。最大字个数可以是6、7、8、9、10、11、12等。所述长度阈值可以与已有的专业术语的长度有关。处理设备可以基于长度阈值和文本的分词结果，确定分词组合。例如，假如中文句子的分词结果为“车辆”、“固定”、“标志”、“识别”、“结构”、“包括”、“固定”和“设备”，长度阈值为8个字，则处理设备可以确定分词组合可以包括“车辆”、“固定”、“标志”、“识别”、“结构”、“包括”、“固定”、“设备”、“车辆固定”、“固定标志”、“标志识别”、“结构包括”、“包括固定”、“固定设备”、“车辆固定标志”、“固定标志识别”、“标志识别结构”、“识别结构包括”、“结构包括固定”、“包括固定设备”、“车辆固定标志识别”、“固定标志识别结构”、“标志识别结构包括”、“识别结构包括固定”、“结构包括固定设备”。又例如，假如英文句子的分词结果为“fixed”、“sign”，“identification”、“structure”、“vehicle”、“includes”、“fixed”、“device”，长度阈值为4个词，则处理设备可以确定分词组合为“fixed”、“sign”，“identification”、“structure”、“vehicle”、“includes”、“fixed”、“device”、“fixedsign”、“sign identification”、“identification structure”、“structure vehicle”、“vehicle includes”、“includes fixed”、“fixed device”、“fixed signidentification”、“sign identification structure”、“identification structurevehicle”、“structure vehicle includes”、“vehicle includes fixed”、“includesfixed device”、“fixed sign identification structure”、“sign identificationstructure vehicle”、“identification structure vehicle includes”、“structurevehicle includes fixed”、“vehicle includes fixed device”。

在一些实施例中，处理设备可以对容许词形还原的语言(例如，英语)的分词组合进行词形还原。词形还原是把一个单词(例如，英文单词)的变换形式(例如，复数形式、过去式、过去分词)还原为该词的基本形式(即，词典形式)。例如，处理设备可以将“includes”，“including”，“included”还原为基本形式include。又例如，处理设备可以将“doing”、“done”、“did”和“does”还原为基本形式“do”。仅作为示例，处理设备对“fixed sign”进行词形还原后可以得到“fix sign”。

在一些实施例中，处理设备可以通过字典对分词组合进行词元还原。例如，可以将分词组合与字典中的词语进行匹配，通过匹配结果可以确定所述分词组合的基本形式。在一些实施例中，可以基于规则的算法对分词组合进行词性还原。所述规则可以手工编写，也可以从注释的语料库中自动学习。例如，可以通过if-then规则算法、ripple down rules(RDR)induction algorithms等来实现词形还原。

在一些实施例中，处理设备可以对分词组合进行词性标注，以确定所述分词组合的词性结构。例如，处理设备可以通过词性标注算法对分词组合进行词性标注。示例性的词性标注算法可以包括基于最大熵的词性标注算法、基于统计最大概率输出词性算法、基于HMM词性标注算法或基于CRF的词性标注算法等或其组合。例如，分词组合“identificationstructure”、“sign identification”的词性结构可以为“名词+名词”。又例如，分词组合“vehicle includes”的词性结构可以为“名词+动词”。再例如，分词组合“signidentification structure”的词性结构可以为“名词+名词+名词”，分词组合“fixed signidentification structure”的词性结构可以为“形容词+名词+名词+名词”。

在一些实施例中，分词处理和词性标注处理可以由同一算法完成，例如，使用jieba分词算法。在一些实施例中，分词处理和词性标注处理可以由不同的算法完成。例如，分词处理由N-最短路径分词算法完成，词性标注由基于HMM词性标注算法完成。在一些实施例中，分词处理和词性标注处理可以同时完成，也可以不同时完成。例如，先完成分词处理再完成词性标注，或者先完成词性标注再完成分词处理。

在一些实施例中，处理设备可以从所述分词组合中去除属于专业领域语料中的分词组合。

专业领域语料指的是某一专业领域内为该领域内的人员所用的文本组成的语料。在一些实施例中，所述专业领域语料可以是一个包括该专业领域内的术语的语料表。例如，所述专业领域语料可以包括专业术语表。所述专业领域语料的领域至少与待处理文本的领域相同或包括待处理文本的领域。仅作为示例，若所述待处理文本属于机器学习模型领域，所述专业领域语料可以属于机器学习模型领域或者计算机领域。

在一些实施例中，所述专业领域语料的分词组合可以来自于专业词典、Wiki百科等，也可以由用户用其他方式制作。专业领域语料的分词组合可以预先存储在计算设备中。

在一些实施例中，处理设备可以确定所述文本的专业领域。在一些实施例中，处理设备可以通过分类算法对所述文本进行分类，并根据分类结果判断所述文本所属的专业领域。例如，处理设备可以根据文本统计的特征，结合分类器对所述文本进行分类。又例如，处理设备可以通过BERT模型结合分类器对所述文本进行分类。在一些实施例中，处理设备可以根据所述文本的内容确定所述文本的专业领域。例如，处理设备可以根据专利申请的技术领域部分的内容确定所述专利申请的专业领域。

在一些实施例中，处理设备可以将文本所属的专业领域的语料与所述文本的分词组合进行比对，从而从分词组合中去除属于专业领域语料中的分词组合。处理设备可以从去除专业领域语料后的所述分词组合中确定所述候选术语。在一些实施例中，处理设备可以将剩下的分词组合全部确定为候选术语。在一些实施例中，处理设备可以将剩下的分词组合中全部标记为名词的分词组合确定为候选术语。在一些实施例中，处理设备可以将剩下的分词组合中至少一个名词确定为候选术语。

在一些实施例中，处理设备可以将分词组合中含字长度或词长度小于一定阈值的分词组合确定为候选术语。例如，候选术语“固定标志”的含字长度为4，候选术语“signidentification”的含词长度为2。在一些实施例中，所述阈值可以小于20。例如，所述阈值可以在2-10范围内。

在一些实施例中，处理设备可以将分词组合的词跨度进行排序(例如，倒序)，将排名较前(例如，前30％)的分词组合确定为候选术语。在一些实施例中，处理设备可以将词跨度大于阈值(例如，全部词跨度的平均值)的分词组合确定为候选术语。词跨度是指分词组合在文本中首次出现和末次出现之间的距离。词跨度可以表示候选术语对文本的重要性。词跨度越大说明候选术语对该文本越重要。词跨度的计算公式如下：

其中last_i表示候选术语i在文本中最后出现的位置，first_i表示候选术语i在文本中第一次出现的位置，sum表示文本中词或字的总数。

一些实施例中，确定候选术语的方式可以是上述方式的组合，本申请在此不做限定。仅作为示例，从上述中文示例的分词组合中确定的候选术语可以包括“车辆”、“标志”、“结构”、“设备”、“固定标志”、“固定设备”、“车辆固定标志”、“标志识别结构”、“固定标志识别结构”，从上述英文示例的分词组合中确定的候选术语可以包括“sign”，“identification”、“structure”、“vehicle”、“fixed”、“device”、“fixed sign”、“signidentification”、“identification structure”、“structure vehicle”、“fixeddevice”、“fixed sign identification”、“sign identification structure”、“identification structure vehicle”、“includes fixed device”、“fixed signidentification structure”、“sign identification structure vehicle”、“vehicleincludes fixed device”。

在步骤320，处理设备(例如，确定模块220)可以确定多个候选术语中的每个的一个或多个词元。

词元指的是候选术语中的最小单元，即步骤310中分词处理的结果。以中文候选术语为例，词元指的是构成中文候选术语的字或者词语。例如，“固定”和“设备”为“固定设备”的词元。以英文候选术语为例，词元指的是构成英文候选术语的单词。例如，“identification”和“structure”为“identification structure”的词元。在一些实施例中，处理设备可以确定词元的基本形式(即，词典形式)。例如，处理设备可以通过词形还原的方式确定词元的基本形式。关于词形还原的更多描述见步骤310。

在步骤330，处理设备(例如，确定模块220)可以确定每个候选术语在所述文本中出现情况的第一数据。

如本文所用的，“一个候选术语(或词元)在文本(或通用语料、专业领域语料)中的出现情况”是指所述文本(或通用语料、专业领域语料)中包括所述候选术语 (或词元)。例如，“所述候选术语在所述文本中出现情况”是指所述文本中包括所述候选术语。

在一些实施例中，一个候选术语的多种相近的写法可以被看作是同一候选术语。在一些实施例中，所述候选术语的不同形式也可看作是同一候选术语。以英文本文为例，英文中同一个词可以具有不同的语言形式，两个候选术语中部分词语为不同形式的词语可以看作为同一词语。例如，“fixed device”和“fix device”可以认为是相同的候选术语。

在一些实施例中，所述候选术语在所述文本中出现情况的第一数据可以包括第一次数、第一频率，等或其任意组合。

在一些实施例中，第一次数可以包括所述候选术语在全部文本中出现的次数(也可称为第一总次数)、所述候选术语在文本中的不同部分的出现次数(也可称为第一分次数)等或其任意组合。一个术语在全部文本或文本中不同部分的出现次数反映了该术语在所述全部文本或所述文本不同部分的重要性。例如，一个术语在文本中出现的次数越多，所述术语在所述文本中的重要性越高。在一些实施例中，所述文本可以由不同部分组成。例如，文本可以是专利文献，专利文献可以包括说明书、摘要和权利要求书。说明书中可以包括标题、背景技术、发明内容、附图说明、具体实施方式。又例如，文本可以是科技论文，科技论文可以包括标题、摘要、正文。候选术语在待处理文本中不同的部分可能具有不同的重要性。

在一些实施例中，处理设备可以将候选术语与文本的内容进行匹配，通过统计的方式确定所述候选术语在所述全部文本中的出现次数。在一些实施例中，处理设备可以识别出区分不同部分的标识(例如，标题)。然后处理设备可以基于标识确定文本的相应部分中第一分次数。以确定候选术语在英文专利文本中的权利要求书中出现的次数为例，处理设备可识别出标题“权利要求”以及位于权利要求书之后的标题“摘要”，处理设备可以确定两个标题之间的内容为权利要求，处理设备可以确定出权利要求中的所述候选术语的出现次数。

在一些实施例中，第一频率可以包括所述候选术语在所述全部文本中的出现频率(也可称为第一总频率)、所述候选术语在所述文本中的不同部分中的出现频率(也可称为第一分频率)等或其任意组合。

一个候选术语的第一总频率指的是所述候选术语在所述文本中出现的次数与分词后的文本中全部词语和/或字的数量之和的比值。

在一些实施例中，处理设备可以通过将所述候选术语在所述文本中出现的次数除以分词后的所述文本中全部词语和/或字的数量，以确定所述候选术语的第一总频率。仅作为示例，若某一个候选术语(例如，fixed sign identification structure)在专利文献中的出现次数为10，分词后所述专利文献共有100个词语(和/或字)，则该候选术语在所述专利文献中出现的频率为0.1(i.e.,10/100＝0.1)，即该候选术语的第一总频率是0.1。

一个候选术语的第一分频率指的是所述候选术语在所述文本的某一个部分(例如，专利的说明书、权利要求、摘要)中出现的次数与分词后的所述文本中全部词语和 /或字的数量之和(或分词后的所述文本的相应部分的词语和/或字的数量之和)的比值。

在一些实施例中，处理设备可以通过将所述候选术语在文本中的某一部分中的出现次数除以分词后所述文本中全部词语和/或字的数量(或所述部分的全部词语和/或字的数量)，以确定所述候选术语在所述文本中的所述部分的第一分频率。仅作为示例，若某一个候选术语(例如，fixed sign identification structure)在专利文献的权利要求中出现次数为5，在摘要中出现的次数为2，分词后文本中共100个词语(和/或字)，则该候选术语在权要要求中出现的频率为0.05(i.e.,5/100＝0.05)，在摘要中出现的频率为0.02(i.e.,2/100＝0.02)，即该候选术语在专利文献的权利要求中出现的第一分频率为0.05，在摘要中出现的第一分频率为0.02。

在步骤340，处理设备(例如，确定模块220)可以确定所述词元在通用语料中出现情况的第二数据。

通用语料指的是由不特定于某一领域的文本组成的语料库，即由多个领域的文本组成的语料库。所述通用语料可以是一个包括通用术语、语句、段落、或者文章的语料表。在一些实施例中，所述通用语料可以包括汉语通用语料库、台湾地区“中央研究院”近代汉语标记语料库、LIVAC汉语共时语料库、当代美国英语语料库、杨百翰大学语料库、英文国家语料库等，或其组合。

在一些实施例中，所述通用语料可以预先制作完成并存储在存储设备(例如，存储设备130)中。处理设备可以通过网络120访问存储设备(例如，存储设备130) 获取通用语料。

在一些实施例中，所述候选术语的词元在通用语料库中出现情况的第二数据可以包括所述候选术语的词元在通用语料中出现的次数(也可称为第二次数)、所述候选术语的词元在通用语料中出现的频率(也可称为第二频率)等或其组合。

一个候选术语的词元在通用语料中出现的频率(即第二频率)指的是所述候选术语的词元在所述通用语料中某一部分出现的次数与通用语料中所述部分的词(和/或字)数量之和的比值。在一些实施例中，所述部分可以是去除通用语料中的停用词、无意义符号(例如，公式符号)等之后剩下的词(或字)。在一些实施例中，所述部分可以是通用语料的每千词(或字)。例如，所述候选术语的词元在通用语料中出现的频率为所述候选术语的词元在通用语料的每千词(或字)中出现的次数与一千的比值。

在一些实施例中，处理设备可以将候选术语的词元与通用语料中的内容进行匹配，通过统计的方式确定所述候选术语的词元在通用语料中出现情况的第二数据。在一些实施例中，处理设备可以通过将所述候选术语的词元在通用语料中的某一部分出现次数除以通用语料中的所述部分的词(或字)数量之和(例如，每千字/词)，以确定所述候选术语的第二频率。仅作为示例，若一个候选术语(例如，fixed sign identification structure)的一个词元(例如，structure)在通用语料中的某千字部分出现的次数为20，则该候选术语的词元在该通用语料中的第二频率为0.02(i.e.,20/1000＝0.02)。

在步骤350，处理设备(例如，确定模块220)可以确定所述词元在专业领域语料中出现情况的第三数据。

在一些实施例中，所述候选术语的词元在专业领域语料中出现情况的第三数据可以包括所述候选术语的词元在专业领域语料中出现的次数(也可称为第三次数)、所述候选术语的词元在专业领域语料中出现的频率(也可称为第三频率)等或其组合。

一个候选术语的词元在专业领域语料中出现的频率(即第三频率)指的是在所述候选术语的词元在所述专业领域语料中某一部分出现的次数与专业领域语料中所述部分的词语(或字)的数量的比值。在一些实施例中，所述部分可以是去除专业语料中的停用词、无意义符号(例如，公式符号)等之后剩下的词(或字)。在一些实施例中，所述部分可以是专业领域语料的每千词(或字)。例如，所述候选术语的词元在专业领域语料中出现的频率为所述候选术语的词元在专业领域语料的每千词(或字)中出现的次数与一千的比值。

在一些实施例中，可以将候选术语的词元与专业领域语料中的内容进行匹配，通过统计的方式确定所述候选术语的词元在专业领域语料中出现情况的第三数据。在一些实施例中，处理设备可以通过将所述候选术语的词元在专业领域语料中的某一部分出现次数除以专业领域语料中的所述部分的词(或字)数量之和(例如，每千字/词)，以确定所述候选术语的第三频率。仅作为示例，若一个候选术语(例如，fixed sign identificationstructure)的一个词元(例如，structure)在专业领域语料中的某千字部分出现的次数为50，则该候选术语的词元在该专业领域语料中的第三频率为0.05(i.e., 50/1000＝0.05)。

在步骤360，处理设备(例如，确定模块220)可以基于参考数据，确定每个候选术语为自造术语的可能性。

在一些实施例中，所述参考数据可以包括第一数据、第二数据、第三数据等或其任何组合。在一些实施例中，所述参考数据还可以包括候选术语的词性结构。在一些实施例中，候选术语的词性结构可能与专业领域语料中已有的术语的词性结构相同。因此，确定候选术语的词性结构有利于更好地判断所述候选术语是否为自造术语。

在一些实施例中，处理设备可以基于参考数据，根据规则确定候选术语为自造术语的可能性。在一些实施例中，所述规则可以是系统默认值或根据不同的情况有所变化。在一些实施例中，所述规则可以由用户手动设置或由系统100的一个或多个组件 (例如，处理设备112)确定。

在一些实施例中，所述规则可以包括第一频率大于第一阈值(也可称为第一规则)，第二频率小于第二阈值(也可称为第二规则)，第三频率与第二频率的比值大于第三阈值(也可称为第三规则)等或其任意组合。候选术语满足第一规则可以说明所述候选术语在所述文本中是高频词组且重要性较高。一个候选术语的词元满足第二规则和第三规则可以说明所述候选术语的词元在通用语料中出现的频率相对较低，并且所述候选术语的词元在专业领域语料中出现的频率比在通用语料中出现的频率相对较高。

在一些实施例中，第一规则可以包括所述候选术语的第一总频率大于第一阈值、所述候选术语的第一分频率大于第一阈值等或其任意组合。例如，“fixed signidentification structure”的第一总频率大于第一阈值。在一些实施例中，第二规则可以包括所述候选术语中的每个词元的第二频率都小于第二阈值、候选术语中的部分词元(例如，候选术语中全部词元总个数的1/2、2/3)的第二频率小于第二阈值、候选术语中的每个词元的第二频率的乘积小于第二阈值等。例如，fixed sign identification structure的每个词元的第二频率小于第二阈值。在一些实施例中，第三规则可以包括所述候选术语中的每个词元的第三频率与第二频率的比值都大于第三阈值、候选术语中的部分词元(例如，候选术语中全部词元总个数的1/2、2/3)的第三频率与第二频率的比值大于第三阈值等。例如，fixed sign identification structure的每个词元的第三频率与第二频率的比值都大于第三阈值。

在一些实施例中，所述规则还可以包括所述候选术语的词性结构与预设词性结构的匹配度大于第四阈值(也可称为第四规则)。如本文所述，“预设词性结构”可以是该专业领域内的专业术语较为常见的词性结构。在一些实施例中，可以通过统计本领域内的专业术语的词性结构确定预设词性结构。预设词性结构可以有多种，例如，“名词+名词”、“形容词+名词”、“形容词+名词+名词+名词”等。如本文所述，“候选术语的词性结构与预设词性结构的匹配度”指的是候选术语的词性结构与预设词性结构的相似度。例如，预设词性结构为“形容词+名词+名词+名词”，第一个候选术语(例如，sign identification structure)的词性结构为“名词+名词+名词”，第二个候选术语(例如，fixed sign identificationstructure)的词性结构为“形容词+名词+名词+名词”，则处理设备可以确定第一个候选术语的词性结构与预设词性结构的匹配度为75％，第二个候选术语的词性结构与预设词性结构的匹配度为100％。

所述第一阈值、第二阈值、第三阈值、第四阈值可以是系统的默认值或者在不同情况下可调。在一些实施例中，第一阈值、第二阈值、第三阈值、第四阈值可以预先确定。所述第一阈值可以根据文本中全部候选术语的第一频率有关。例如，第一阈值可以是文本中全部候选术语的第一频率的平均值。又例如，可以对文本中全部候选术语的第一频率排序，第一阈值可以是位于某一排名(例如，位于中间排名)的频率值。在一些实施例中，所述第二阈值可以与全部候选术语的词元在通用语料中的第二频率有关。例如，第二阈值可以是全部候选术语的词元的第二频率的平均值。又例如，可以对全部候选术语的词元的第二频率进行排序，第二阈值可以是位于某一排名(例如，位于中间排名)的频率值。在一些实施例中，所述第三阈值可以与第二频率和第三频率有关。例如，第三阈值可以是所有候选术语的第三频率的平均值与所有候选术语的词元的第二频率的平均值的比值。在一些实施例中，第三阈值可以是1，即第三频率大于第二频率，也就是说，候选术语的词元在专业领域语料中的频率大于其在通用语料中的频率。在一些实施例中，所述第四阈值可以设置为50％。

在一些实施例中，处理设备可以根据规则确定候选术语为自造术语的可能性。候选术语为自造术语的可能性(可以简称为候选术语的可能性)可以反映所述候选术语为自造术语的概率(可以简称为候选术语的概率)。在一些实施例中，候选术语较高的可能性对应候选术语是自造术语的较高的概率。例如，可能性为0.7的候选术语比可能性为0.3的候选术语有更大的概率成为自造术语。

在一些实施例中，候选术语的可能性可以表示为数字。例如，当一个候选术语满足上述所有规则时，所述候选术语为自造术语的可能性为1。仅作为示例，“fixed signidentification structure”满足上述所有规则，其为自造术语的可能性为1。又例如，当一个候选术语不满足上述任何规则时，所述候选术语为自造术语的可能性为0。仅作为示例，“vehicle”不满足上述任何规则，其为自造术语的可能性为0。再例如，当一个候选术语满足多个规则中的一个或多个时，所述候选术语为自造术语的可能性为中或0-1 之间的值。在一些实施例中，处理设备可以根据每个规则对应的概率确定候选术语为自造术语的可能性。例如，满足每个规则对应的概率值可以是0.25，不满足的规则则记为 0，通过满足的规则对应的概率值的加和，确定候选术语为自造术语的可能性。仅作为示例，fixed device满足上述两个规则，其为自造术语的可能性为0.5。在一些实施例中，处理设备可以根据每个规则对应的概率和每个规则对应的权重确定候选术语为自造术语的可能性。一个规则对应的权重可以表示所述规则的重要性。例如，一个候选术语在专利文献中权利要求部分(或具体实施方式部分)出现的第一分频率对应的权重大于所述候选术语在摘要部分(或背景技术部分、附图说明部分)出现的第一分频率对应的权重。

在一些实施例中，候选术语的可能性可以表示为等级(例如，高等级、中等级、低等级)。例如，处理设备可以设置对应高等级的第一概率阈值范围(例如，0～0.2)、对应中等级的第二阈值范围(例如，0.2～0.8)和对应低等级的第三阈值范围(例如， 0.8～1.0)。处理设备可以根据所述候选术语的概率和设置的阈值范围确定所述候选术语的可能性等级。

在一些实施例中，处理设备可以基于候选术语的概率和概率阈值判断所述候选术语是否为自造术语。例如，处理设备可以判断所述候选术语的概率是否大于概率阈值。如果处理设备判断所述候选术语的概率大于所述概率阈值，所述处理设备可以确定所述候选术语为自造术语并提取该自造术语用于后续分析(例如，翻译)。如果处理设备判断所述候选术语的概率不大于所述概率阈值，所述处理设备可以确定所述候选术语不是自造术语。在一些实施例中，概率阈值可以由用户设置(例如，基于用户的经验)或者系统100的默认设置。例如，当概率在0到1的范围内时，概率阈值可以被设置为从0 到1之间的值(例如，0.6、0.8、0.9等)。仅作为示例，“fixed sign identification structure”为自造术语的概率大于概率阈值(例如，0.9)，处理设备可以确定其为自造术语并提取该术语。“fixed device”为自造术语的概率小于概率阈值0.9，处理设备可以确定其不是自造术语。

应当注意的是，以上对于规则的描述仅作为示例，不应当认为是对本申请的限制。在一些实施例中，所述规则还可以包括所述候选术语的第一次数(第一总次数和/或第一分次数)大于第五阈值、所述候选术语的词元的第二次数小于第六阈值、所述候选术语的词元的第三次数与第二次数的比值大于第七阈值等或其任意组合。

在一些实施例中，处理设备可以根据训练后的机器学习模型确定所述候选术语为自造术语的可能性。例如，处理设备可以将候选术语的第一数据(例如，第一次数、第一频率)、第二数据(例如，第二次数、第二频率)、第三数据(例如，第三次数、第三频率)和词性结构输入训练后的机器学习模型中，所述训练后的机器学习模型可以输出候选术语为自造术语的概率。在一些实施例中，处理设备可以基于多个训练样本训练初始机器学习模型，以生成训练后的机器学习模型。在一些实施例中，所述训练后的机器学习模型可以包括有监督学习模型。所述有监督学习模型可以包括分类模型。关于模型训练的更多内容可以参考图4部分，在此不再赘述。

应当注意的是，上述有关流程300的描述仅仅是为了示例和说明，而不限定本申请的适用范围。对于本领域技术人员来说，在本申请的指导下可以进行各种修正和改变。然而，这些修正和改变仍在本申请的范围之内。例如，在一些实施例中，两个或以上步骤可以同时实现，例如从文本中提取一个或多个候选术语以及确定所述候选术语的词元可以同时实现。在一些实施例中，流程300中的步骤的顺序可以改变。例如，步骤 330可以在步骤320之前实现。又例如，步骤350可以在步骤340之前实现。

图4是根据本申请一些实施例所示的训练机器学习模型的示例性流程图。在一些实施例中，流程400可以由处理设备实施。图4中的处理设备可以指的是图1中的处理设备112。流程400可以包括以下所述的步骤。

在步骤410，处理设备(例如，训练模块230)可以获取多个训练样本。

在一些实施例中，所述训练样本可以包括从每个历史文本中提取出来的多个样本术语。在一些实施例中，所述样本术语可以通过上文所述方式获取，也可以通过用户挑选而得出。所述历史文本可以包括历史文本(例如专利、论文等)的部分内容(例如，专利文献中的摘要、权利要求，论文的摘要等)，也可以包括历史文本(例如，专利、论文等)的全部内容。所述历史文本可以从数据库(例如，专利文献数据库、科技论文数据库)或存储设备中，或者通过其他接口获取。

在步骤420，处理设备(例如，训练模块230)可以提取多个训练样本中的每一个训练样本的多个特征。

在一些实施例中，所述特征可以包括每个训练样本中的样本术语的第一数据(例如，第一次数、第一频率)、第二数据(例如，第二次数、第二频率)、第三数据(例如，第三次数、第三频率)和词性结构等，或其任何组合。所述样本术语的第一数据、第二数据、第三数据和词性结构可以通过图3中所述的方式获取。

在一些实施例中，每一个特征可以对应一个权重。如本文所述，特征的权重可以表示所述特征在训练初始机器学习模型时的重要性。例如，对应样本术语第一数据的权重和对应样本术语第三数据的权重较高，对应样本数据的第二数据的权重较低。又例如，对应样本术语的词元在专利申请的权要(或具体实施方式)中的第一分频率的权重可以高于对应样本术语的词元在摘要(或背景技术)中的第一分频率的权重。

在一些实施例中，处理设备可以确定训练样本的标签。如本文所述，训练样本的标签是与训练样本是否是自造术语有关。例如，如果一个训练样本是自造术语，则所述训练样本的标签值是1。如果一个训练样本不是自造术语，则所述训练样本的标签值是0。在一些实施例中，系统100的用户可以手动确定训练样本的标签值。在一些实施例中，训练样本的标签值可以通过如图3所述的规则确定。

在一些实施例中，处理设备可以对上述特征进行转化，得到相应的向量特征。例如，可以将上述特征进行数字化处理，进而转化为欧几里得空间中的向量。

在步骤430，处理设备(例如，训练模块230)可以基于所述多个特征训练初始机器学习模型来获取训练后的机器学习模型。

初始机器学习模型是指需要进行训练的机器学习模型。在一些实施例中，初始机器学习模型可以是有监督机器学习模型。例如，初始机器学习模型可以是分类模型。分类模型可以包括逻辑回归模型、梯度提升决策树(GBDT)模型、极端梯度提升 (XGBoost)模型、随机森林模型、决策树模型、支持向量机(SVM)、朴素贝叶斯等或其任意组合。在一些实施例中，初始机器学习模型可以包括多个参数。示例性参数可以包括一层内核的大小、层的总数(或数量)、每一层中节点的数量(或数量)、学习率、批大小、纪元、两个连接的节点之间的连接权重、与节点有关的偏差向量等。初始机器学习模型的参数可以是默认设置，或者由用户或系统100的一个或多个组件在不同情况下调整。以XGBoost模型为初始分类模型为例，初始机器学习模型可以包括booster 类型(例如，基于树的模型或线性模型)、booster参数(例如，最大深度、叶节点的最大数量)、学习任务参数(例如，训练的目标函数)等或其任意组合。

在一些实施例中，可以通过训练初始机器学习模型(preliminary machinelearning model)，以生成训练后的机器学习模型(也可以称为术语模型)(trainedmachine learning model)。术语模型可以被配置用于确定或预测候选术语为自造术语的概率和/或指示候选术语是否为自造术语的类别。例如，处理设备可以将候选术语以及候选术语的第一频率、第二频率、第三频率、词性结构输入术语模型中，术语模型可以输出所述候选术语为自造术语的可能性或者所述候选术语是否为自造术语。

在一些实施例中，可以使用训练算法基于多个训练样本来训练初始机器学习模型。示例性训练算法可以包括梯度下降算法、牛顿算法、拟牛顿算法、列文贝格-马夸特算法、共轭梯度算法、生成对抗性算法等。

在一些实施例中，可以通过执行多次迭代来更新初始机器学习模型的一个或多个参数值，以生成训练后的机器学习模型。对于多次迭代中的每次迭代，可以首先将训练样本的特征和对应的标签值输入到初始机器学习模型中。例如，可以将样本术语的特征输入到初始机器学习模型的输入层(input layer)中，并且可以将与样本术语对应的标签值输入到初始机器学习模型的输出层(output layer)中作为初始机器学习模型的期望输出。初始机器学习模型可以基于样本术语的特征确定样本术语的预测输出(例如，预测可能性)。处理设备可以比较训练样本的预测输出和训练样本的期望输出。处理设备可以基于比较结果更新初始机器学习模型的一个或多个参数，生成更新机器学习模型 (updated machinelearning model)。更新机器学习模型基于训练样本生成的预测输出比初始机器学习模型生成的预测输出更接近期望输出。

可以执行多次迭代以更新初始机器学习模型(或更新机器学习模型)的参数值，直到满足终止条件为止。终止条件可以提供关于初始机器学习模型(或更新机器学习模型)是否被充分训练的指示。在一些实施例中，终止条件可以与已执行的迭代次数相关。例如，终止条件可以是已执行的迭代次数大于次数阈值。在一些实施例中，终止条件可以与连续迭代之间的一个或多个模型参数的变化程度(例如，与前一次迭代中更新的模型参数相比，当前迭代中更新的模型参数的变化程度)相关。例如，终止条件可以是连续迭代之间的一个或多个模型参数的变化程度小于程度阈值。在一些实施例中，终止条件可以与预测输出(例如预测可能性)和期望输出(例如标签值)之间的差异相关。例如，终止条件可以是预测输出和期望输出之间的差值小于差值阈值。

若确定更新机器学习模型满足终止条件时，处理设备可以确定在最后的迭代中获得的相应的更新机器学习模型已被充分训练。处理设备可以将所述更新模型确定为训练后的机器学习模型。训练后的机器学习模型可以基于候选术语的特征输出所述候选术语为自造术语的可能性。

若确定更新机器学习模型不满足终止条件时，处理设备可以继续执行一个或多个迭代以进一步更新所述更新机器学习模型，直到满足终止条件为止。

在一些实施例中，更新的机器学习模型还可以通过测试样本来测试。测试样本可以与训练样本的一部分相同。例如，可以将获取到的样本划分为用于训练机器学习模型的训练集和用于测试调整后的机器学习模型的测试集。可以将测试样本中的每一个样本的特征输入到更新后的机器学习模型中，以输出对应的预测输出。处理设备可以进一步确定测试样本的预测输出与期望输出之间的差异。如果该差异满足预定条件，则处理设备可以将更新后的机器学习模型指定为术语模型。如果该差异不满足预定条件，处理设备可以用额外的样本进一步训练更新后的机器学习模型，直到差异满足预定条件，以获取术语模型。预定条件可以是存储在系统100中的默认值，或者由用户和/或系统100 根据不同情况确定。

在一些实施例中，基于至少部分与确定原始训练机器学习模型所需的原始样本集不同的样本集，训练后的机器学习模型可以不时地更新，例如定期地或不定期地更新。例如，基于包括不在原始样本集中的新样本、使用与先前版本的原始训练机器学习模型有关的机器学习模型处理的样本、等或其组合的样本集，可以更新训练机器学习模型。在一些实施例中，可以在处理设备上执行对训练机器学习模型的确定和/或更新，也可以在不同的处理设备上执行对训练机器学习模型的应用。在一些实施例中，可以在与系统100不同的系统的处理设备上或者在与包括应用了训练机器学习模型的处理设备的服务器不同的服务器上，对训练机器学习模型进行确定和/或更新。例如，可以在供应商的第一系统上执行对训练的机器学习模型的确定和/或更新，该供应商提供和/或维持这种机器学习模型和/或可以使用用于确定和/或训练样本的训练样本，而可以在卖方客户的第二系统上基于提供的机器学习模型对自造术语进行确定。在一些实施例中，可以响应于对自造术语确定的请求而在线执行训练的机器学习模型的确定和/或更新。在一些实施例中，训练的机器学习模型的确定和/或更新可以离线执行。

应当注意的是，上述有关流程400的描述仅仅是为了示例和说明，而不限定本申请的适用范围。对于本领域技术人员来说，在本申请的指导下可以对流程400进行各种修正和改变。然而，这些修正和改变仍在本申请的范围之内。

本申请实施例可能带来的有益效果包括但不限于：(1)基于规则和/或机器学习模型判断候选术语是否为自造术语，提高了识别自造术语的效率和准确性，降低人为识别的工作量；(2)通过确定自造术语，与现有专业术语区分，可以丰富语料库的资源。需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。

上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本申请的限定。虽然此处并没有明确说明，本领域技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议，所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。

同时，本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

此外，本领域技术人员可以理解，本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。

计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、RF、或类似介质，或任何上述介质的组合。

本申请各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本申请披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本申请实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

针对本申请引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本申请作为参考。与本申请内容不一致或产生冲突的申请历史内容除外，对本申请权利要求最广范围有限制的内容 (当前或之后附加于本申请中的)也除外。需要说明的是，如果本申请附属材料中的描述、定义、和/或术语的使用与本申请所述内容有不一致或冲突的地方，以本申请的描述、定义和/或术语的使用为准。

最后，应当理解的是，本申请中所述实施例仅用以说明本申请实施例的原则。其他的变形也可能属于本申请的范围。因此，作为示例而非限制，本申请实施例的替代配置可视为与本申请的教导一致。相应地，本申请的实施例不仅限于本申请明确介绍和描述的实施例。

Claims

1.一种提取专业领域内的自造术语的方法，包括：

从文本中提取候选术语；

确定所述候选术语在所述文本中出现情况的第一数据；

确定所述候选术语的词元；

确定所述词元在通用语料中出现情况的第二数据；

确定所述词元在专业领域语料中出现情况的第三数据；以及

基于参考数据，确定所述候选术语为自造术语的可能性，其中所述参考数据包括所述第一数据、所述第二数据、所述第三数据。

2.如权利要求1所述的方法，其特征在于，所述提取待处理文本中的候选术语包括：

通过对所述文本进行分词处理，得到分词组合；

从所述分词组合中去除属于专业领域语料中的分词组合；以及

从去除后的所述分词组合中确定所述候选术语。

3.如权利要求1所述的方法，其特征在于，所述参考数据还包括词性结构。

4.如权利要求3所述的方法，其特征在于，所述第一数据包括第一频率，其中第一频率包括所述候选术语在所述文本中的不同部分中的频率和所述候选术语在所述文本中的频率中的至少一个。

5.如权利要求4所述的方法，其特征在于，所述第一数据还包括第一次数，其中所述第一次数包括所述候选术语在所述文本中的不同部分中的出现次数和所述候选术语在所述文本中的至少一个。

6.如权利要求5所述的方法，其特征在于，基于参考数据，确定所述候选术语为自造术语的可能性包括：根据规则确定所述候选术语为自造术语的可能性。

7.如权利要求6所述的方法，其特征在于，

所述第二数据包括所述词元在通用语料中出现的第二频率；

所述第三数据包括所述词元在专业领域语料中出现的第三频率；以及

所述规则包括：

所述第一频率大于第一阈值；

所述第二频率小于第二阈值；以及

所述第三频率与所述第二频率的比值大于第三阈值。

8.如权利要求7所述的方法，其特征在于，所述规则还包括：

所述候选术语的词性结构与预设词性结构的匹配度大于第四阈值。

9.如权利要求1所述的方法，其特征在于，基于参考数据，确定所述候选术语为自造术语的可能性包括：根据训练后的机器学习模型确定所述候选术语为自造术语的可能性。

10.如权利要求9所述的方法，其特征在于，所述训练后的机器学习模型通过一个训练过程确定，所述训练过程包括：

获取多个训练样本；

提取多个训练样本中的每个训练样本的多个特征；以及

基于所述多个特征训练初始机器学习模型，生成训练后的机器学习模型。

11.一种提取专业领域内的自造术语的系统，包括提取模块、确定模块和训练模块，其特征在于，

所述提取模块用于从文本中提取候选术语；以及

所述确定模块用于：

确定所述候选术语在所述文本中出现情况的第一数据；

确定所述候选术语的词元；

确定所述词元在通用语料中出现情况的第二数据；

确定所述词元在专业领域语料中出现情况的第三数据；以及

12.如权利要求11所述的系统，其特征在于，所述提取模块进一步用于：

通过对所述文本进行分词处理，得到分词组合；

从去除后的所述分词组合中确定所述候选术语。

13.如权利要求11所述的系统，其特征在于，所述参考数据还包括词性结构。

14.如权利要求13所述的系统，其特征在于，所述第一数据包括第一频率，其中第一频率包括所述候选术语在所述文本中的不同部分中的频率和所述候选术语在所述文本中的频率中的至少一个。

15.如权利要求14所述的系统，其特征在于，所述第一数据还包括所述候选术语在所述文本中的出现次数。

16.如权利要求15所述的系统，其特征在于，所述确定模块进一步用于：根据规则确定所述候选术语为自造术语的可能性。

17.如权利要求16所述的系统，其特征在于，

所述第二数据包括所述词元在通用语料中出现的第二频率；

所述规则包括：

所述第一频率大于第一阈值；

所述第二频率小于第二阈值；以及

所述第三频率与所述第二频率的比值大于第三阈值。

18.如权利要求17所述的系统，其特征在于，所述规则还包括：

19.如权利要求11所述的系统，其特征在于，所述确定模块进一步用于：根据训练后的机器学习模型确定所述候选术语为自造术语的可能性。

20.如权利要求19所述的系统，其特征在于，所述训练后的机器学习模型由训练模块通过一个训练过程确定，所述训练过程包括：

获取多个训练样本；

提取多个训练样本中的每个训练样本的多个特征；以及

21.一种提取专业领域内的自造术语的系统，包括至少一个存储介质和至少一个处理器，其特征在于：

所述至少一个存储介质用于存储计算机指令；

所述至少一个处理器用于执行所述计算机指令，以实现如权利要求1～10中任一项所述的提取专业领域内的自造术语的方法。

22.一种计算机可读存储介质，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，所述计算机执行如权利要求1～10任一项所述的提取专业领域内的自造术语的方法。