CN111581971A - 词库的更新方法、装置、终端及存储介质 - Google Patents

词库的更新方法、装置、终端及存储介质 Download PDF

Info

Publication number
CN111581971A
CN111581971A CN202010501340.8A CN202010501340A CN111581971A CN 111581971 A CN111581971 A CN 111581971A CN 202010501340 A CN202010501340 A CN 202010501340A CN 111581971 A CN111581971 A CN 111581971A
Authority
CN
China
Prior art keywords
preprocessed
entry
target
user interface
account
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010501340.8A
Other languages
English (en)
Other versions
CN111581971B (zh
Inventor
张雨辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010501340.8A priority Critical patent/CN111581971B/zh
Publication of CN111581971A publication Critical patent/CN111581971A/zh
Application granted granted Critical
Publication of CN111581971B publication Critical patent/CN111581971B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种词库的更新方法、装置、终端及存储介质,属于自然语言处理技术领域,本申请实施例能够将目标文本输入到自然语言处理模型中,获取预处理条目,响应于预处理条目是目标词库中的新条目,将预处理条目发送至第一用户界面,第一用户界面由第一帐号控制;响应于第一帐号发出的第一确认指令,将预处理条目发送至第二用户界面,第二用户界面由第二帐号控制;响应于第二帐号发出的第二确认指令,将预处理条目添加到目标词库中。因此,目标词库中的条目能够在两个互不相同的帐号用户的控制下进行更新,提高了NLP中词库实时更新的效率,并在第二帐号的统一控制下,使得词库在实时更新的前提下提高了新词标注的质量和效率。

Description

词库的更新方法、装置、终端及存储介质
技术领域
本申请实施例涉及自然语言处理技术领域,特别涉及一种词库的更新方法、装置、终端及存储介质。
背景技术
在人工智能(Artificial Intelligence,AI)技术中,自然语言处理(NatureLanguage processing,NLP)作为一个重要的研究方向,能够实现人与计算机之间通过自然语言进行有效通信。
在自然语言处理中,词汇是最小的能够独立活动的有意义的语言成分。在当今世界中,存在许多需要对句子进行划分的语言,例如中文。可见,针对需要划分出词汇的语言,分词的准确性直接影响后续机器对自然语言的理解。相关技术中,机器通常基于给定的目标词库中的词汇进行分词和词性标注。
然而,若目标词库中不存在新的词汇或词性时,则机器将出现误标或者漏标的情况,影响后续机器对自然语言的理解。
发明内容
本申请实施例提供了一种词库的更新方法、装置、终端及存储介质,可以解决目标词库中不存在新的词汇或词性时,机器出现误标或者漏标的问题。所述技术方案如下:
根据本申请的一方面内容,提供了一种词库的更新方法,所述方法包括:
将目标文本输入到自然语言处理模型中,获取预处理条目;
响应于所述预处理条目是目标词库中的新条目,将所述预处理条目发送至第一用户界面,所述第一用户界面是第一帐号控制的用户界面;
响应于所述第一帐号发出的第一确认指令,将所述预处理条目发送至第二用户界面,所述第二用户界面是第二帐号控制的用户界面;
响应于所述第二帐号发出的第二确认指令,将所述预处理条目添加到所述目标词库中。
根据本申请的另一方面内容,提供了一种词库的更新装置,所述装置包括:
预处理模块,用于将目标文本输入到自然语言处理模型中,获取预处理条目;
第一发送模块,用于响应于所述预处理条目是目标词库中的新条目,将所述预处理条目发送至第一用户界面,所述第一用户界面是第一帐号控制的用户界面;
第二发送模块,用于响应于所述第一帐号发出的第一确认指令,将所述预处理条目发送至第二用户界面,所述第二用户界面是第二帐号控制的用户界面;
词库更新模块,用于响应于所述第二帐号发出的第二确认指令,将所述预处理条目添加到所述目标词库中。
根据本申请的另一方面内容,提供了一种终端,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如本申请实施提供的词库的更新方法。
根据本申请的另一方面内容,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如本申请实施提供的词库的更新方法。
本申请实施例提供的技术方案带来的有益效果可以包括:
由于本申请实施例能够将目标文本输入到自然语言处理模型中,获取预处理条目,响应于所述预处理条目是目标词库中的新条目,将所述预处理条目发送至第一用户界面,所述第一用户界面是第一帐号控制的用户界面;响应于所述第一帐号发出的第一确认指令,将所述预处理条目发送至第二用户界面,所述第二用户界面是第二帐号控制的用户界面;响应于所述第二帐号发出的第二确认指令,将所述预处理条目添加到所述目标词库中。因此,目标词库中的条目能够在两个互不相同的帐号用户的控制下进行更新,提高了NLP中词库实时更新的效率,并在第二帐号的统一控制下,使得词库在实时更新的前提下提高了新词标注的质量和效率。
附图说明
为了更清楚地介绍本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本申请一个示例性实施例提供的词库的更新方法的系统框架图;
图2是本申请一个示例性实施例提供的一种词库的更新方法的流程图;
图3是基于图2示出的一种词库的更新方法的界面示意图;
图4是本申请另一个示例性实施例提供的另一种词库的更新方法流程图;
图5是基于图2所示实施例提供的一种词库的更新方法流程图;
图6是基于图4所示实施例提供的另一种词库的更新方法的界面示意图;
图7是基于图4所示实施例提供的一种新词待审核队列的示意图;
图8是基于图4所示实施例提供的一种新词添加到目标词库过程示意图;
图9是本申请一个示例性实施例提供的一种词库的更新装置的结构框图;
图10是根据一示例性实施例示出的计算机设备900的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本申请的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
在本申请中,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。简而言之,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请涉及其中的自然语言处理技术。其中,自然语言处理技术是一门融合语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
在自然语言处理技术中,首要的是将自然语言转化为机器所能够处理的形式。通常的处理方式包括将句子划分为多个词汇,并对词汇进行词性标注。本申请实施例提供一种基于自然语言处理的词库的更新方法,本方法涉及的技术细节介绍如下。
为了本申请实施例所示方案易于理解,下面对本申请实施例中出现的若干名词进行介绍。
中文自动分词(Chinese word segmentation):针对目标文本属于中文的一项自然语言处理的底层技术,用于对中文文本进行自动分词。
词性标注(Part-of-speech tagging):NLP的另一项底层技术,用于对已经完成分词的词汇进行词性标注。示意性的,在本申请中的词性可以包括名词、动词、形容词、副词、代词、介词、量词、成语、连词、助词以及标点符号。
在一种可能的应用方式中,各个词性可以通过不同的符号表示,请参见表一和表二。
Figure BDA0002524930980000051
Figure BDA0002524930980000052
表一和表二示出了一种词性标注时,各个不同的词性所对应的符号。需要说明的是,本申请实施例还可以通过其他的词性划分方式和相应的代表符号,本申请对此不做限定。
请参考图1,图1是本申请一个示例性实施例提供的词库的更新方法的系统框架图。如图1所示,该系统中包括服务器110、第一客户端120和第二客户端130。其中,服务器110和第一客户端120进行通信,服务器110和第二客户端130进行通信。服务器110可以用于执行本申请实施例提供的词库的更新方法,该服务器110中运行并维护有自然语言处理模型。示意性的,第一客户端120是运行于指定的终端中。在一种可能的实现方式中,该第一客户端120需要在终端中安装客户端软件,在另一种可能的实现方式中,该第一客户端120无需在终端中安装客户端软件,仅需终端通过浏览器打开指定的页面,登录第一帐号即可。
相应的,第二客户端130既可以运行于指定的终端中,该终端中安装有客户端软件。在另一种可能的实现方式中,第二客户端130可以通过浏览器打开指定的页面,登录第二帐号即可。
在本申请实施例中,第一客户端120的数量可以是多个,第二客户端130的数量小于第一客户端120的数量。示意性的,第二客户端130的数量为1个或2个。
由上述内容可知,本申请提供的目标词库将运行在云端,通过服务器110维护。该词库的更新将动态进行,也即目标词库在被调用的同时能够在不停止服务的情况下进行更新,提高了目标词库实时更新的效率。
基于图1所示的系统,本申请能够通过服务器110执行一种词库的更新方法,相关的执行过程可参见图2实施例的内容。
请参考图2,图2是本申请一个示例性实施例提供的一种词库的更新方法的流程图。该词库的更新方法可以应用在上述图1所示的服务器中。在图2中,词库的更新方法包括:
步骤210,将目标文本输入到自然语言处理模型中,获取预处理条目。
在本申请实施例中,服务器能够将目标文本输入到自然语言处理模型中。该自然语言处理模型可以是服务器维护的一个机器学习模型。一种可能的方式中,该自然语言处理模型可以是一个模型,能够处理多个语种的语言。另一种可能的方式中,该自然语言处理模型可以多个模型,一个模型处理一个指定的语种。
在一种处理方式中,服务器将目标文本作为一个处理单元输入到自然语言处理模型中,获取预处理条目。该预处理条目是自然语言处理模型处理目标文本后获得的处理结果。
示意性的,目标文本可以是半句话、一句话、一段话或者几句话的组合。
比如,若目标文本是一句话“大家了解了电动汽车的新资讯。”在一种处理方式中,该目标文本经过自然语言处理模型的处理后为“大家/r了解/v了/u电动汽车/n的/u新/a资讯/n。/w”。
其中,目标文本被切分为8个词汇,分别为“大家”、“了解”、“了”、“电动汽车”、“的”、“新”、“资讯”和“。”并且上述8个词汇被分别标注了词性,也是对应的8个预处理条目。需要说明的是,条目可以是词性或词汇。例如,“大家/r”是一个词性条目,“电动汽车”是一个词汇条目。
步骤220,响应于预处理条目是目标词库中的新条目,将预处理条目发送至第一用户界面,第一用户界面是第一帐号控制的用户界面。
在本申请实施例中,服务器能够将获得到的各个条目与目标词库中的条目进行比对。在比对的过程中,存在两种情况,下面分别进行介绍。
第一种情况是自然语言处理模型处理目标文本后得到的预处理条目,与,目标词库中的条目相同,也即目标词库已经存在预处理条目。当目标词库中已经存在预处理条目时,说明目标词库能够支持当前预处理条目的分词和词性确定,无需进行更新。
第二种情况是自然语言处理模型处理目标文本后得到的预处理条目,与,目标词库中的条目不同,也即目标词库不存在预处理条目。在此情况中,目标词库不能够支持当前预处理条目的分词和/或词性确定,需要进行更新。
在本申请实施例中,当上述第二种情况发生时,服务器判定预处理条目是目标词库中的新条目。服务器将预处理条目发送至第一用户界面。需要说明的是,服务器将确定登录第一帐号的第一客户端,并将该预处理条目发送至第一用户界面。
示意性的,针对预处理条目被发送至第一用户界面的情况,可以包括如下情形。
(1)在一种可能的情况,预处理条目将内嵌在目标文本中被发送至第一客户端中显示。
在该场景中,服务器可以将目标文本完成处理得到的全部预处理条目,发送至第一客户端,令第一客户端在第一用户界面中显示。
示意性的,响应于预处理条目是目标词库中的新条目,将预处理条目和显示参数发送至第一用户界面,显示参数用于指示预处理条目在第一用户界面中突出显示。可选地,该显示参数可以指示高亮显示、彩色字体、彩色背景色、加粗显示或下划线显示等显示方式,本申请实施例对此不作限定。
请参考图3,图3是基于图2示出的一种词库的更新方法的界面示意图。在图3中,该用户界面300是第一用户界面。第一用户界面300包括原文310、词库审查结果320和标注区330。在该第一用户界面300中,向使用者提供了目标文本的短词合并和长词切短的功能,且第一用户界面300能够向使用者提示目标文本被切分后得到的词汇和对应的词性。在词库审查结果320和标注区330中,以加粗和红色的字体显示新条目340“电动汽车”。
步骤230,响应于第一帐号发出的第一确认指令,将预处理条目发送至第二用户界面,第二用户界面是第二帐号控制的用户界面。
在本申请实施例中,服务器能够响应于第一帐号发出的第一确认指令,将预处理条目发送至第二用户界面。其中,第一确认指令用于确定新条目确实为需要添加到目标词库的条目。在此情况下,本申请将预处理条目发送至第二用户界面,该第二用户界面是第二帐号控制的用户界面。
需要说明的是,由于本申请引入第一帐号对作为新条目的预处理条目进行确认,并将确认结果再发送至第二帐号控制的第二用户界面,使得一个新条目的添加入目标词库的过程准确严格,提高了词库更新的质量。在一种可能的实现方式中,服务器将预处理条目发送至显示第二用户界面的终端中。
步骤240,响应于第二帐号发出的第二确认指令,将预处理条目添加到目标词库中。
在本申请实施例中,当第二帐号向服务器发送第二确认指令时,说明第二帐号的使用者已经认可作为新条目的预处理条目能够添加至目标词库中。在此情况下,服务器将该预处理条目添加到目标词库中,完成本次词库中条目的更新。以预处理条目为“电动汽车”为例,在经过上述步骤210至步骤240的处理后,服务器中将“电动汽车”作为新的词汇添加到目标词库中,完成本次词库的更新。
综上所述,本实施例提供的词库的更新方法,能够将目标文本输入到自然语言处理模型中,获取预处理条目,响应于所述预处理条目是目标词库中的新条目,将所述预处理条目发送至第一用户界面,所述第一用户界面是第一帐号控制的用户界面;响应于所述第一帐号发出的第一确认指令,将所述预处理条目发送至第二用户界面,所述第二用户界面是第二帐号控制的用户界面;响应于所述第二帐号发出的第二确认指令,将所述预处理条目添加到所述目标词库中。因此,目标词库中的条目能够在两个互不相同的帐号用户的控制下进行更新,提高了NLP中词库实时更新的效率,并在第二帐号的统一控制下,使得词库在实时更新的前提下提高了新词标注的质量和效率。
基于上一个实施例所公开的方案,终端还能够在识别出目标词库中不存在的词性后,将新的词性添加至目标词库。请参考如下实施例。
请参见图4,图4是本申请另一个示例性实施例提供的另一种词库的更新方法流程图。该词库的更新方法可以应用在上述图1所示的服务器中。在图4中,该词库的更新方法包括:
步骤411,响应于目标文本所属的语种是预设语种,确定目标语言处理模型,目标语言处理模型,是对应目标文本所属的语种的自然语言处理模型。
在本申请中,服务器能够预先对待处理的目标文本进行语种上的识别。当目标文本所属的语种时预设语种时,服务器能够确定目标语言处理模型。需要说明的是,该目标语言处理模型,是对应目标文本所属的语种的自然语言处理模型。
在一种可能的实施方式中,服务器能够对目标文本进行自动的语种识别,所采用的文本识别工具可以是预先训练好的语种识别模型,也可以是语种识别程序,本申请实施例对此不作限定。
其中,预设语种可以是需要对文本进行划分的语种,例如中文。
步骤412,将目标文本输入到目标语言处理模型,获取预处理条目。
在本申请实施例中,服务器获取预处理词汇。
服务器将目标文本输入到目标语言处理模型,获取预处理词汇,预处理词汇是符合预设语种的语法的词汇。
示意性的,服务器能够将目标文本输入到目标语言处理模型中,获取经过该模型处理后得到的预处理词汇,该预处理词汇是符合预设语种的语法的词汇。
在本申请实施例中,目标语言处理模型具备对目标文本进行分词和词性标注的功能。示意性的,该目标语言处理模型可以是jieba、SnowNLP、PKUSeg、THULAC、HanLP、FoolNLTK、LTP或CoreNLP中的至少一种。
例如,目标文本是“大家了解了电动汽车的新资讯。”。经过目标语言处理模型处理后,得到的预处理词汇是“大家”、“了解”、“了”、“电动汽车”、“的”、“新”、“资讯”和“。”一共8个词汇。
在本申请实施例中,服务器还能够对已有的词汇标注新的词性,请参见图5,图5是基于图2所示实施例提供的一种词库的更新方法流程图。在图5中,服务器能够更新已有条目的词性,介绍如下。
步骤210,将目标文本输入到自然语言处理模型中,获取预处理条目。
步骤250,响应于预处理条目是目标词库中的已有条目,将预处理条目发送至第一用户界面。
在本申请实施例中,服务器在预处理条目是目标词库中的已有条目时,将预处理条目发送至第一用户界面。可选的,该预处理条目在第一用户界面显示时,可以将目标词库中默认该已有条目的词性一同显示。
步骤260,响应于第一帐号发出的词性预增添指令,将词性预增添指令对应的词性与预处理条目发送至第二用户界面。
在本申请实施例中,第一帐号的使用者能够在第一用户界面中更改已有条目的词性。当第一帐号的使用者在第一用户界面中,增加已有条目的新词性时,触发第一帐号向服务器发出词性添加指令。
例如,请参见图6,图6是基于图4所示实施例提供的另一种词库的更新方法的界面示意图。该用户界面500是第一用户界面。第一用户界面500包括原文510、词库审查结果520和标注区530。在该第一用户界面500中,向使用者提供了目标文本的短词合并和长词切短的功能,且第一用户界面500能够向使用者提示目标文本被切分后得到的词汇和对应的词性。在词库审查结果520和标注区530中,用户能够手动为已有条目540“阳光”增添新的词性形容词性“/a”。示意性的,已有条目540“阳光”在增加新词性后将通过彩色背景色进行显示。
步骤270,响应于第二帐号发出的词性添加指令,在目标词库中建立词性预增添指令对应的词性与预处理条目的关联关系。
在本申请实施例中,第二帐号用于在目标词库中为预处理条目增加词性预增添指令对应的词性的权限。示意性的,词性添加指令可以是第二用户界面中某个指定的确认按钮被按下时触发的指令。
步骤421,接收目标客户端发送的登录请求,登录请求中包括生物识别信息。
可选地,为了保障第一帐户的使用者和第二帐户的使用者都是经过服务器认证的用户,本申请实施例还可以通过生物识别信息来确认目标客户端中的使用者的身份。
在该场景中,服务器能够接收目标客户端发送的登录请求,该登录请求中包括生物识别信息。
步骤422,响应于生物识别信息与预设帐号匹配,返回登录凭证,登录凭证用于访问预设帐户的标注台,标注台用于接收对预处理条目的操作。
可选地,服务器响应于生物识别信息与预设帐号匹配,向目标客户端返回登录凭证,该登录凭证用于访问预设帐户的标注台,该标注台用于接收对预处理条目的操作。
需要说明的是,第一帐户的标注台中包括第一用户界面,第二帐户的标注台中包括第二用户界面。
步骤431,响应于第一帐号发出的第一确认指令,将预处理条目添加至审核队列。
步骤432,按照审核队列中的条目按照添加至队列中的先后时刻,将预处理条目发送至第二用户界面。
请参见图7,图7是基于图4所示实施例提供的一种新词待审核队列的示意图。在图7中,待审核队列中包括预处理条目610和预处理条目620。预处理条目610是比预处理条目620更早添加到队列中的预处理条目。预处理条目610的词汇是电动汽车,词性是名词(符号是n),状态是未审核,审核控件包括通过审核按钮和删除按钮。预处理条目的词汇是阳光,词性是形容词(符号是a),状态是未审核,审核控件包括通过审核按钮和删除按钮。第二帐户的使用者可以在第二用户界面中对图7所示的新词待审核队列进行审核。
请参见图8,图8是基于图4所示实施例提供的一种新词添加到目标词库过程示意图。在图8中,包括目标词库的第一状态710和第二状态720。其中,第一状态710是更新前的目标词库中的内容,第二状态720是更新后的目标词库中的内容。由图8所示的内容可知,更新后的目标词库中增加了新词“电动汽车”和词汇“阳光”新的词性“形容词”(通过符号a来表示)。
可选地,当目标词库完成更新后,若自然语言处理模型再次切分得到已添加到目标词库中的词汇时,该词汇将不再突出显示,而是与其它正常切分得到的词汇一样,显示为默认的颜色。例如,正常切分得到的词汇一律显示为黑色。
综上所述,本实施例能够根据目标文本所属的语言的需要,决定是否启用本申请所示的词库更新的方法。当服务器识别到目标文本是预设语种时,采用本申请实施例指示的词库的更新方法,能够有效提高目标词库的更新效率,避免无关的样本对词库的更新工作带来干扰。
本实施例提供的词库的更新方法,还能够同时应用于新的词汇的添加和新的词性的添加中,使得无论目标词库中需要添加新的词汇,还是目标词库中的词汇需要添加新的词性,本申请实施例都能够实现目标词库的更新。
本实施例提供的词库的更新方法,还能够在第一帐号或第二帐号登录时,通过生物识别信息对用户进行认证,使得目标词库的更新能够在第一帐号的用户和第二帐号用户的两级控制下,达到高效且标准统一,提高了应用于自然语言处理的词库更新的效率,进而提高了NLP分词词性标注的准确性和一致性,提高了NLP词性标注效率。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图9,图9是本申请一个示例性实施例提供的一种词库的更新装置的结构框图。该词库的更新装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置包括:
预处理模块810,用于将目标文本输入到自然语言处理模型中,获取预处理条目;
第一发送模块820,用于响应于所述预处理条目是目标词库中的新条目,将所述预处理条目发送至第一用户界面,所述第一用户界面是第一帐号控制的用户界面;
第二发送模块830,用于响应于所述第一帐号发出的第一确认指令,将所述预处理条目发送至第二用户界面,所述第二用户界面是第二帐号控制的用户界面;
词库更新模块840,用于响应于所述第二帐号发出的第二确认指令,将所述预处理条目添加到所述目标词库中。
在一个可选的实施例中,所述预处理模块810,用于响应于所述目标文本所属的语种是预设语种,确定目标语言处理模型,所述目标语言处理模型,是对应所述目标文本所属的语种的所述自然语言处理模型;将所述目标文本输入到所述目标语言处理模型,获取所述预处理条目。
在一个可选的实施例中,所述预处理模块810,用于将所述目标文本输入到所述目标语言处理模型,获取预处理词汇,所述预处理词汇是符合所述预设语种的语法的词汇。
在一个可选的实施例中,所述预处理模块810,用于将所述目标文本输入到所述目标语言处理模型,获取预处理词性,所述预处理词性是目标词汇的词性,所述目标词汇属于所述预设语种。
在一个可选的实施例中,所述装置包括请求接收模块和凭证返回模块,所述请求接收模块,用于接收目标客户端发送的登录请求,所述登录请求中包括生物识别信息;所述凭证返回模块,用于响应于所述生物识别信息与预设帐号匹配,返回登录凭证,所述登录凭证用于访问所述预设帐户的标注台,所述标注台用于接收对所述预处理条目的操作。
在一个可选的实施例中,所述第一发送模块820,用于响应于所述预处理条目是所述目标词库中的新条目,将所述预处理条目和显示参数发送至所述第一用户界面,所述显示参数用于指示所述预处理条目在所述第一用户界面中突出显示。
在一个可选的实施例中,所述第二发送模块830,用于响应于所述第一帐号发出的第一确认指令,将所述预处理条目添加至审核队列;按照所述审核队列中的条目按照添加至队列中的先后时刻,将所述预处理条目发送至所述第二用户界面。
综上所述,本实施例能够根据目标文本所属的语言的需要,决定是否启用本申请所示的词库更新的方法。当服务器识别到目标文本是预设语种时,采用本申请实施例指示的词库的更新方法,能够有效提高目标词库的更新效率,避免无关的样本对词库的更新工作带来干扰。
本实施例提供的词库的更新方法,还能够同时应用于新的词汇的添加和新的词性的添加中,使得无论目标词库中需要添加新的词汇,还是目标词库中的词汇需要添加新的词性,本申请实施例都能够实现目标词库的更新。
本实施例提供的词库的更新方法,还能够在第一帐号或第二帐号登录时,通过生物识别信息对用户进行认证,使得目标词库的更新能够在第一帐号的用户和第二帐号用户的两级控制下,达到高效且标准统一,提高了应用于自然语言处理的词库更新的效率,进而提高了NLP分词词性标注的准确性和一致性,提高了NLP词性标注效率。
请参见图10,图10是根据一示例性实施例示出的计算机设备900的结构框图。该计算机设备可以实现为本申请上述方案中的服务器。
需要说明的是,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(英文:Content DeliveryNetwork;中文:内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
所述计算机设备900包括中央处理单元(Central Processing Unit,CPU)901、包括随机存取存储器(Random Access Memory,RAM)902和只读存储器(Read-Only Memory,ROM)903的系统存储器904,以及连接系统存储器904和中央处理单元901的系统总线905。所述计算机设备900还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output系统,I/O系统)906,和用于存储操作系统913、应用程序914和其他程序模块915的大容量存储设备907。
所述基本输入/输出系统906包括有用于显示信息的显示器908和用于用户输入信息的诸如鼠标、键盘之类的输入设备909。其中所述显示器908和输入设备909都通过连接到系统总线905的输入输出控制器910连接到中央处理单元901。所述基本输入/输出系统906还可以包括输入输出控制器910以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器910还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备907通过连接到系统总线905的大容量存储控制器(未示出)连接到中央处理单元901。所述大容量存储设备907及其相关联的计算机可读介质为计算机设备900提供非易失性存储。也就是说,所述大容量存储设备907可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读寄存器(Erasable Programmable Read Only Memory,EPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-OnlyMemory,EEPROM)闪存或其他固态存储其技术,CD-ROM、数字多功能光盘(DigitalVersatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器904和大容量存储设备907可以统称为存储器。
根据本公开的各种实施例,所述计算机设备900还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备900可以通过连接在所述系统总线905上的网络接口单元911连接到网络912,或者说,也可以使用网络接口单元911来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集存储于存储器中,中央处理器901通过执行该至少一条指令、至少一段程序、代码集或指令集来实现上述各个实施例所示的词库的更新的方法中的全部或者部分步骤。
本申请实施例还提供了一种计算机可读介质,该计算机可读介质存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的词库的更新方法。
需要说明的是:上述实施例提供的词库的更新装置在执行词库的更新方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的词库的更新装置与词库的更新方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的能够实现的示例性的实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种词库的更新方法,其特征在于,所述方法包括:
将目标文本输入到自然语言处理模型中,获取预处理条目;
响应于所述预处理条目是目标词库中的新条目,将所述预处理条目发送至第一用户界面,所述第一用户界面是第一帐号控制的用户界面;
响应于所述第一帐号发出的第一确认指令,将所述预处理条目发送至第二用户界面,所述第二用户界面是第二帐号控制的用户界面;
响应于所述第二帐号发出的第二确认指令,将所述预处理条目添加到所述目标词库中。
2.根据权利要求1所述的方法,其特征在于,所述将目标文本输入到自然语言处理模型中,获取预处理条目,包括:
响应于所述目标文本所属的语种是预设语种,确定目标语言处理模型,所述目标语言处理模型,是对应所述目标文本所属的语种的所述自然语言处理模型;
将所述目标文本输入到所述目标语言处理模型,获取所述预处理条目。
3.根据权利要求2所述的方法,其特征在于,所述将所述目标文本输入到所述目标语言处理模型,获取所述预处理条目,包括:
将所述目标文本输入到所述目标语言处理模型,获取预处理词汇,所述预处理词汇是符合所述预设语种的语法的词汇。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于所述预处理条目是所述目标词库中的已有条目,将所述预处理条目发送至所述第一用户界面;
响应于所述第一帐号发出的词性预增添指令,将所述词性预增添指令对应的词性与所述预处理条目发送至所述第二用户界面;
响应于第二帐号发出的词性添加指令,在所述目标词库中建立所述词性预增添指令对应的词性与所述预处理条目的关联关系。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收目标客户端发送的登录请求,所述登录请求中包括生物识别信息;
响应于所述生物识别信息与预设帐号匹配,返回登录凭证,所述登录凭证用于访问所述预设帐户的标注台,所述标注台用于接收对所述预处理条目的操作。
6.根据权利要求1所述的方法,其特征在于,所述响应于所述预处理条目是目标词库中的新条目,将所述预处理条目发送至第一用户界面,包括:
响应于所述预处理条目是所述目标词库中的新条目,将所述预处理条目和显示参数发送至所述第一用户界面,所述显示参数用于指示所述预处理条目在所述第一用户界面中突出显示。
7.根据权利要求1所述的方法,其特征在于,所述响应于所述第一帐号发出的第一确认指令,将所述预处理条目发送至第二用户界面,包括:
响应于所述第一帐号发出的第一确认指令,将所述预处理条目添加至审核队列;
按照所述审核队列中的条目按照添加至队列中的先后时刻,将所述预处理条目发送至所述第二用户界面。
8.一种词库的更新装置,其特征在于,所述装置包括:
预处理模块,用于将目标文本输入到自然语言处理模型中,获取预处理条目;
第一发送模块,用于响应于所述预处理条目是目标词库中的新条目,将所述预处理条目发送至第一用户界面,所述第一用户界面是第一帐号控制的用户界面;
第二发送模块,用于响应于所述第一帐号发出的第一确认指令,将所述预处理条目发送至第二用户界面,所述第二用户界面是第二帐号控制的用户界面;
词库更新模块,用于响应于所述第二帐号发出的第二确认指令,将所述预处理条目添加到所述目标词库中。
9.一种终端,其特征在于,所述终端包括处理器、和与所述处理器相连的存储器,以及存储在所述存储器上的程序指令,所述处理器执行所述程序指令时实现如权利要求1至7任一所述的词库的更新方法。
10.一种计算机可读存储介质,所述存储介质中存储有程序指令,其特征在于,所述程序指令被处理器执行时实现如权利要求1至7任一所述的词库的更新方法。
CN202010501340.8A 2020-06-04 2020-06-04 词库的更新方法、装置、终端及存储介质 Active CN111581971B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010501340.8A CN111581971B (zh) 2020-06-04 2020-06-04 词库的更新方法、装置、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010501340.8A CN111581971B (zh) 2020-06-04 2020-06-04 词库的更新方法、装置、终端及存储介质

Publications (2)

Publication Number Publication Date
CN111581971A true CN111581971A (zh) 2020-08-25
CN111581971B CN111581971B (zh) 2024-01-23

Family

ID=72125581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010501340.8A Active CN111581971B (zh) 2020-06-04 2020-06-04 词库的更新方法、装置、终端及存储介质

Country Status (1)

Country Link
CN (1) CN111581971B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112083814A (zh) * 2020-08-28 2020-12-15 的卢技术有限公司 一种基于ai和云计算的词库生成方法
CN114429129A (zh) * 2021-12-22 2022-05-03 南京信息工程大学 一种文献挖掘与材料性质预测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008014702A1 (fr) * 2006-07-25 2008-02-07 Beijing Sogou Technology Development Co., Ltd. Procédé et système d'extraction de mots nouveaux
WO2008141583A1 (fr) * 2007-05-22 2008-11-27 Beijing Sogou Technology Development Co., Ltd. Procédé d'entrée de caractères, système d'entrée et procédé pour mettre à jour un lexique de mots
CN108768840A (zh) * 2018-06-12 2018-11-06 北京京东金融科技控股有限公司 一种账号管理的方法和装置
WO2019034957A1 (en) * 2017-08-17 2019-02-21 International Business Machines Corporation LEXICAL CONTROL PRE-ANALYZER SPECIFIC TO THE DOMAIN
CN110418161A (zh) * 2019-08-02 2019-11-05 广州虎牙科技有限公司 视频审核方法及装置、电子设备及可读存储介质
CN110825840A (zh) * 2019-11-08 2020-02-21 北京声智科技有限公司 词库扩充方法、装置、设备及存储介质
CN111048215A (zh) * 2019-12-13 2020-04-21 北京纵横无双科技有限公司 一种基于crm的医疗视频制作方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008014702A1 (fr) * 2006-07-25 2008-02-07 Beijing Sogou Technology Development Co., Ltd. Procédé et système d'extraction de mots nouveaux
WO2008141583A1 (fr) * 2007-05-22 2008-11-27 Beijing Sogou Technology Development Co., Ltd. Procédé d'entrée de caractères, système d'entrée et procédé pour mettre à jour un lexique de mots
WO2019034957A1 (en) * 2017-08-17 2019-02-21 International Business Machines Corporation LEXICAL CONTROL PRE-ANALYZER SPECIFIC TO THE DOMAIN
US20190057076A1 (en) * 2017-08-17 2019-02-21 International Business Machines Corporation Domain-specific lexically-driven pre-parser
CN108768840A (zh) * 2018-06-12 2018-11-06 北京京东金融科技控股有限公司 一种账号管理的方法和装置
CN110418161A (zh) * 2019-08-02 2019-11-05 广州虎牙科技有限公司 视频审核方法及装置、电子设备及可读存储介质
CN110825840A (zh) * 2019-11-08 2020-02-21 北京声智科技有限公司 词库扩充方法、装置、设备及存储介质
CN111048215A (zh) * 2019-12-13 2020-04-21 北京纵横无双科技有限公司 一种基于crm的医疗视频制作方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112083814A (zh) * 2020-08-28 2020-12-15 的卢技术有限公司 一种基于ai和云计算的词库生成方法
CN114429129A (zh) * 2021-12-22 2022-05-03 南京信息工程大学 一种文献挖掘与材料性质预测方法

Also Published As

Publication number Publication date
CN111581971B (zh) 2024-01-23

Similar Documents

Publication Publication Date Title
US20190294676A1 (en) Written-modality prosody subsystem in a natural language understanding (nlu) framework
US9805718B2 (en) Clarifying natural language input using targeted questions
CN111241237B (zh) 一种基于运维业务的智能问答数据处理方法及装置
CN105931644A (zh) 一种语音识别方法及移动终端
CN111783471B (zh) 自然语言的语义识别方法、装置、设备及存储介质
US11531821B2 (en) Intent resolution for chatbot conversations with negation and coreferences
CN113240436A (zh) 在线客服话术质检的方法和装置
US11907665B2 (en) Method and system for processing user inputs using natural language processing
CN111581971B (zh) 词库的更新方法、装置、终端及存储介质
US11748569B2 (en) System and method for query authorization and response generation using machine learning
CN115438149A (zh) 一种端到端模型训练方法、装置、计算机设备及存储介质
CN118378631B (zh) 文本审查方法、装置、设备及存储介质
US20160364483A1 (en) Modification of search subject in predictive search sentences
CN114186040A (zh) 一种智能机器人客服的运作方法
EP3186707B1 (en) Method of and system for processing a user-generated input command
CN111611779B (zh) 辅助文本标注方法、装置、设备及其存储介质
CN116701604A (zh) 问答语料库的构建方法和装置、问答方法、设备及介质
CN114528851B (zh) 回复语句确定方法、装置、电子设备和存储介质
CN115169370A (zh) 语料数据增强方法、装置、计算机设备及介质
US9311295B2 (en) Procedure extraction and enrichment from unstructured text using natural language processing (NLP) techniques
CN114186020A (zh) 一种语义联想方法
CN110276001B (zh) 盘点页识别方法、装置、计算设备和介质
Evchenko et al. Translation of Natural Language Requests to API
CN111104118A (zh) 一种基于aiml的自然语言指令执行方法及系统
CN113722465B (zh) 一种意图识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant