CN108710612A - 语义标注的方法、装置、计算机设备、可读存储介质 - Google Patents

语义标注的方法、装置、计算机设备、可读存储介质 Download PDF

Info

Publication number
CN108710612A
CN108710612A CN201810494763.4A CN201810494763A CN108710612A CN 108710612 A CN108710612 A CN 108710612A CN 201810494763 A CN201810494763 A CN 201810494763A CN 108710612 A CN108710612 A CN 108710612A
Authority
CN
China
Prior art keywords
reference information
entity
target
mark reference
target entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810494763.4A
Other languages
English (en)
Inventor
王辽松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810494763.4A priority Critical patent/CN108710612A/zh
Publication of CN108710612A publication Critical patent/CN108710612A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明实施例公开了一种语义标注的方法、装置、计算机设备、可读存储介质,属于自然语言处理技术领域。所述方法包括:显示语义标注界面,所述语义标注界面中显示有待标注的语料;获取所述语料中已指定的目标实体;发送标注参考信息获取请求,所述标注参考信息获取请求中携带有所述目标实体,所述标注参考信息获取请求用于获取根据所述目标实体和所述语料对应的目标领域信息确定出的所述目标实体对应的标注参考信息;接收所述目标实体对应的标注参考信息;在所述语义标注界面中,显示所述目标实体对应的标注参考信息。采用本发明,可以提高语义标注的效率。

Description

语义标注的方法、装置、计算机设备、可读存储介质
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种语义标注的方法、装置、计算机设备、可读存储介质。
背景技术
在自然语言处理技术领域中,为了更准确的对智能系统进行训练,需要标注人员对语料进行语义标注。对于每个待标注的语料,标注人员可以基于自己掌握的知识对语料中的实体(其中,实体可以是自然语言中的名词、形容词或者其他可以对理解该语料提供帮助的单字或词语)进行语义标注,即对实体标注对应的标签。当标注人员不清楚某实体对应的标签时,可以通过搜索工具,辅助确认该实体的标签。例如,语料是:我想听A的冰雨,对于实体“冰雨”,标注人员不确定该实体是否是一首歌曲时,可以通过搜索相关知识,确定该实体的标签为歌曲。
在实现本发明的过程中,发明人发现相关技术至少存在以下问题:
基于上述进行语义标注的处理方式,每当标注人员遇到不了解的实体时,均需要先进行相关搜索,才能确定该实体的标签,从而,导致语义标注的效率较低。
发明内容
本发明实施例提供了一种语义标注的方法、装置、计算机设备、可读存储介质,可以解决相关技术中存在的语义标注的效率较低的问题。所述技术方案如下:
一方面,提供了一种语义标注的方法,所述方法包括:
显示语义标注界面,所述语义标注界面中显示有待标注的语料;
获取所述语料中已指定的目标实体;
发送标注参考信息获取请求,所述标注参考信息获取请求中携带有所述目标实体,所述标注参考信息获取请求用于获取根据所述目标实体和所述语料对应的目标领域信息确定出的所述目标实体对应的标注参考信息;
接收所述目标实体对应的标注参考信息;
在所述语义标注界面中,显示所述目标实体对应的标注参考信息。
一方面,提供了一种语义标注的装置,所述装置包括:
第一显示模块,用于显示语义标注界面,所述语义标注界面中显示有待标注的语料;
第一获取模块,用于获取所述语料中已指定的目标实体;
发送模块,用于发送标注参考信息获取请求,所述标注参考信息获取请求中携带有所述目标实体,所述标注参考信息获取请求用于获取根据所述目标实体和所述语料对应的目标领域信息确定出的所述目标实体对应的标注参考信息;
接收模块,用于接收所述目标实体对应的标注参考信息;
第二显示模块,用于在所述语义标注界面中,显示所述目标实体对应的标注参考信息。
一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述所述的语义标注的方法。
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述所述的语义标注的方法。
本发明实施例提供的技术方案带来的有益效果至少包括:
本发明实施例中,终端可以在语义标注的过程中,获取待标注的语料包含的目标实体对应的标注参考信息,进而,可以在语义标注界面显示目标实体对应的标注参考信息,以便标注人员可以根据终端显示的标注参考信息对目标实体进行语义标注,从而,可以避免标注人员遇到不了解的实体时,再进行相关搜索,进而,可以提高语义标注的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种系统框架示意图;
图2是本发明实施例提供的一种语义标注的方法流程图;
图3是本发明实施例提供的一种界面示意图;
图4是本发明实施例提供的一种逻辑框架示意图;
图5是本发明实施例提供的一种语义标注的装置结构示意图;
图6是本发明实施例提供的一种语义标注的装置结构示意图;
图7是本发明实施例提供的一种语义标注的装置结构示意图;
图8是本发明实施例提供的一种语义标注的装置结构示意图;
图9是本发明实施例提供的一种终端的装置结构示意图;
图10是本发明实施例提供的一种服务器的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例提供了一种语义标注的方法,该方法可以由终端101实现,也可以由终端101和服务器102共同实现,系统框架图如图1所示。其中,终端101可以是具有确定实体对应的标注参考信息功能的终端,比如可以是PC(Personal Computer,个人电脑)等终端,可以用于标注人员对待标注的语料进行语义标注处理。服务器102可以是确定实体对应的标注参考信息功能的后台服务器,可以与终端101进行通信,还可以用于对终端提供待标注的语料。
终端101可以包括处理器、存储器、收发器、屏幕等部件。处理器可以为CPU(Central Processing Unit,中央处理单元)等,可以用于获取指定的目标实体、基于目标实体对应的标注参考信息显示提示信息的相关处理。存储器可以为RAM(Random AccessMemory,随机存取存储器)、Flash(闪存)等,可以用于存储接收到的数据、处理过程所需的数据、处理过程中生成的数据等,如语料、目标实体、标注参考信息等。屏幕可以是显示器,可以用于显示语义标注界面等,屏幕还可以是触控屏,此种情况下,还可以用于检测触碰信号等。收发器可以用于与其它设备进行数据传输,例如,向服务器102发送携带有目标实体的标注参考信息获取请求,接收服务器102发送的目标实体对应的标注参考信息,可以包括天线、匹配电路、调制解调器等。
服务器102可以包括处理器、存储器、收发器等部件。处理器可以为CPU等,可以用于从网络资源中确定目标实体对应的标注参考信息的相关处理。存储器可以为RAM、Flash等,可以用于存储接收到的数据、处理过程所需的数据、处理过程中生成的数据等,如领域信息、网络资源等。收发器可以用于与终端或其它服务器进行数据传输,例如,接收终端101发送的标注参考信息获取请求,向终端101发送目标实体对应的标注参考信息,收发器可以包括天线、匹配电路、调制解调器等。
在自然语言处理技术领域中,为了更准确的对智能系统进行训练,需要标注人员对语料进行语义标注。相关技术中,对于每个待标注的语料,标注人员可以基于自己掌握的知识对语料中的实体(其中,实体可以是自然语言中的名词、形容词或者其他可以对理解该语料提供帮助的单字或词语)进行语义标注,即对实体标注对应的标签。当标注人员不清楚某实体对应的标签时,可以通过搜索工具,辅助确认该实体的标签。例如,语料是:我想听A的冰雨,对于实体“冰雨”,标注人员不确定该实体是否是一首歌曲时,可以通过搜索相关知识,确定该实体的标签为歌曲。这样,每当标注人员遇到不了解的实体时,均需要先进行相关搜索,才能确定该实体的标签,从而,导致语义标注的效率较低。
本方案中,终端显示语义标注界面后,可以获取语料中已指定的目标实体,进而,可以发送标注参考信息获取请求,其中,标注参考信息获取请求中可以携带有目标实体,可以用于获取根据目标实体和语料对应的目标领域信息确定出的目标实体对应的标注参考信息。相应的,终端接收到目标实体对应的标注参考信息后,可以在语义标注的过程中,显示目标实体对应的标注参考信息。这样,标注人员可以根据终端显示的标注参考信息对目标实体进行语义标注,从而,可以避免标注人员遇到不了解的实体时,再进行相关搜索,进而,可以提高语义标注的效率。另外,采用本方案,可以降低标注人员的门槛,无需培养专业的标注人员,从而,可以节省大量的人力和物力,进而,可以减少培养标注人员的成本。
以由终端和服务器共同实现为例,进行详细说明,其他情况与之类似,不再进行赘述,下面将结合具体实施方式,对图2所示的处理流程进行详细的说明,内容可以如下:
步骤201,终端显示语义标注界面,语义标注界面中显示有待标注的语料。
在实施中,终端可以具有确定实体对应的标注参考信息的功能,标注人员可以通过该功能对各语料进行语义标注。当标注人员想要进行语义标注时,可以通过操作触发终端显示语义标注界面,其中,语义标注界面中可以显示有待标注的语料,待标注的语料可以是终端从服务器中获取的。
步骤202,终端获取语料中已指定的目标实体。
在实施中,终端显示语义标注界面后,当标注人员对某实体(即目标实体)不了解时,可以通过操作,指定目标实体,相应的,终端可以获取到语料中包含的已指定的目标实体,其中,目标实体可以是一个或多个。例如,语义标注界面中可以显示有输入框,当标注人员对某实体(即目标实体)不了解时,可以将该目标实体输入到输入框中。
步骤203,终端向服务器发送标注参考信息获取请求,标注参考信息获取请求中携带有目标实体。
其中,标注参考信息获取请求用于获取根据目标实体和语料对应的目标领域信息确定出的目标实体对应的标注参考信息。标注参考信息可以是用于提示目标实体对应的标签的信息,比如标注参考信息可以是歌手、歌曲、地点等信息。
在实施中,终端获取到目标实体后,可以基于预先存储的网络地址,向服务器发送携带有目标实体的标注参考信息获取请求,其中,标注参考信息获取请求可以用于请求服务器根据目标实体和目标实体对应的目标领域信息确定目标实体对应的标注参考信息。
可选的,标注人员还可以在语义标注界面指定待标注的语料对应的领域信息,相应的,终端还可以进行如下处理:获取已指定的语料对应的目标领域信息。相应的,步骤203的处理过程可以如下:向服务器发送标注参考信息获取请求,标注参考信息获取请求中携带有目标实体和目标领域信息。
在实施中,终端显示语义标注界面后,当标注人员不了解目标实体时,还可以指定该语料对应的领域信息(即目标领域信息),相应的,终端可以获取已指定的语料对应的目标领域信息。例如,语料是:我想听A的冰雨,当标注人员不了解“冰雨”时,可以指定“冰雨”为目标实体,并可以自身掌握的知识指定该语料对应的目标领域信息为音乐领域。此种情况下,终端可以向服务器发送携带有目标实体和目标领域信息的标注参考信息获取请求。
步骤204,服务器在语义标注的过程中,获取待标注的语料包含的目标实体,并获取语料对应的目标领域信息。
在实施中,在语义标注的过程中,服务器可以获取终端当前待标注的语料包含的目标实体,其中,目标实体可以是语料包含的各实体中的一个或多个,也可以是语料包含的所有实体。除此之外,服务器还可以获取语料对应的目标领域信息。
可选的,基于获取目标实体的方式不同,步骤204的处理方式可以多种多样,以下给出了几种可行的处理方式:
方式一,接收终端发送的标注参考信息获取请求,标注参考信息获取请求中携带有目标实体,获取标注参考信息获取请求中携带的目标实体。
在实施中,针对终端向服务器发送标注参考信息获取请求的情况,服务器可以接收终端发送的标注参考信息获取请求,进而,可以对其进行解析,获取其中携带的目标实体,此时服务器即获取到语料包含的目标实体。
方式二,获取待标注的语料包含的各关键词,将各关键词确定为目标实体。
在实施中,由于终端中待标注的语料是由服务器发送的,因此,服务器可以确定终端当前待标注的语料。此种情况下,服务器能够获取到终端当前待标注的语料,可以对待标注的语料进行文本分析,获取待标注的语料包含的各关键词,其中,关键词可以是除虚词之外的词,进而,可以将获取到的关键词确定为目标实体。
可选的,基于获取目标领域信息的方式不同,步骤204的处理方式可以多种多样,以下给出了几种可行的处理方式:
方式一,接收终端发送的标注参考信息获取请求,标注参考信息获取请求中携带有目标实体和目标领域信息,获取标注参考信息获取请求中携带的目标领域信息。
在实施中,针对在语义标注过程中终端向服务器发送标注参考信息获取请求的情况,服务器可以接收终端发送的标注参考信息获取请求,进而,可以对其进行解析,获取其中携带的目标领域信息。也就是说,针对标注参考信息获取请求中携带有目标实体和目标领域信息的情况,服务器可以从标注参考信息获取请求中获取目标实体和目标领域信息。
方式二,根据各领域信息,确定待标注的语料对应的目标领域信息。
在实施中,服务器中可以预先存储有各领域信息。此种情况下,服务器获取语料包含的目标实体后,可以获取之前确定出的目标实体所在语料对应的领域信息,进而,可以将确定出的领域信息,确定为待标注的语料对应的目标领域信息。或者,服务器可以将预先存储的各领域信息确定为目标领域信息。其中,目标领域信息可以是一个或多个。
步骤205,服务器根据目标领域信息和目标实体,从网络资源中,确定目标实体对应的标注参考信息。
在实施中,获取到目标领域信息和目标实体后,服务器可以从网络资源中,确定目标实体对应的标注参考信息。
可选的,服务器可以同步确定标注参考信息,也可以异步确定标注参考信息,基于确定标注参考信息的方式不同,步骤205的处理过程可以多种多样,以下给出了几种可行的处理方式:
方式一,基于同步的方式,步骤205的处理过程可以如下:在各领域信息对应的数据获取地址中,确定目标领域对应的目标数据获取地址;从目标数据获取地址中,爬取与目标实体相关的数据;根据爬取到的与目标实体相关的数据,确定目标实体对应的标注参考信息。
在实施中,服务器中可以预先存储有各领域信息对应的数据获取地址,其中,数据获取地址可以是各领域信息对应的网站的网络地址,比如可以是URL(Uniform ResourceLocator,统一资源定位符),各数据获取地址可以是经过授权后的数据获取地址。服务器获取到目标实体和目标领域信息后,可以在预先存储的各领域信息对应的数据获取地址中,确定目标领域信息对应的数据获取地址(即目标数据获取地址),进而,可以通过爬虫技术从目标数据获取地址中,爬取与目标实体相关的数据,其中,对不同类型的数据获取地址,可以采用不同的爬取方式,也即从不同类型的数据获取地址爬取到的与目标实体相关的数据对应的类型可以不同。例如,从百科对应的数据获取地址中爬取到的数据可以是包含目标实体的文本数据。又例如,从音乐播放软件对应的数据获取地址爬取到的数据可以是目标实体所属的类别。
爬取到与目标实体相关的数据后,可以基于爬取到的与目标实体相关的数据,确定目标实体对应的标注参考信息。
可选的,基于爬取到的数据的类型不同,确定标注参考信息的处理方式可以多种多样,以下给出了几种可行的处理方式:
方式(一),如果爬取到的与目标实体相关的数据为包含目标实体的文本数据,则获取各标注参考信息对应的文本构成规则;如果爬取到的与目标实体相关的文本数据中,存在符合各文本构成规则中第一文本构成规则的文本数据,则将第一文本构成规则对应的标注参考信息确定为目标实体对应的参考标注信息。
在实施中,服务器中可以预先存储有各标注参考信息对应的文本构成规则(也可称为定义规则)。爬取到与目标实体相关的数据后,服务器可以判断爬取到与目标实体相关的数据的类型,进而,可以基于确定出的类型对应的确定方式,确定目标实体对应的标注参考信息,其中,服务器可以基于爬取到的数据对应的数据获取地址,来确定爬取到的数据的类型。
具体的,如果爬取到的与目标实体相关的数据为包含目标实体的文本数据,则可以获取预先存储的各标注参考信息对应的文本构成规则,进而,可以将各个文本数据与各文本构成规则进行比较,如果各文本数据中,存在与各文本构成规则中的任一文本构成规则(可称为第一文本构成规则)相匹配的文本数据,则可以将第一文本构成规则对应的标注参考信息确定为目标实体对应的参考标注信息。例如,歌手对应的文本构成规则是A发过专辑、A唱过歌曲(如果符合该文本构成规则,即可将实体A对应的标注参考信息确定为歌手),爬取到的文本数据为B发过专辑,则可以看出该文本数据与歌手对应的文本构成规则相匹配,则服务器可以将实体B对应的标注参考信息确定为歌手。
方式(二),如果爬取到的与目标实体相关的数据为目标实体所属的类别,则将类别确定为目标实体对应的标注参考信息。
在实施中,爬取到与目标实体相关的数据后,如果爬取到的与目标实体相关的数据为目标实体所属的类别,则服务器可以直接将爬取到的类别确定为目标实体对应的标注参考信息。例如,目标数据获取地址中存储的数据包含各类别对应的数据库(比如,包含歌手对应的歌手数据库),服务器在爬取数据时,如果目标实体在某类别对应的数据库中,则服务器爬取到的数据即为该类别,进而,服务器可以将该类别确定为目标实体对应的标注参考信息。
可选的,目标数据获取地址可以是一个,也可以是多个,当目标数据获取地址为多个时,确定标注参考信息的处理过程可以如下:根据从每个目标数据获取地址爬取到的与目标实体相关的数据,确定每个目标数据获取地址下目标实体对应的标注参考信息;基于每个目标数据获取地址对应的权重、以及每个目标数据获取地址下目标实体对应的标注参考信息,确定目标实体最终对应的标注参考信息。
在实施中,对于每个数据获取地址,服务器可以基于从该目标数据获取地址爬取到的与目标实体相关的数据,确定该目标数据获取地址下目标实体对应的标注参考信息,其中,具体的确定方式可以参见上述方式(一)和方式(二)。确定出每个目标数据获取地址下目标实体对应的标注参考信息后,可以获取预先存储的每个目标数据获取地址对应的权重(其中,权重可以与对应目标数据获取地址的权威性成正比),进而,可以基于每个目标数据获取地址对应的权重、以及每个目标数据获取地址下目标实体对应的标注参考信息,确定目标实体最终对应的标注参考信息。
可选的,基于对权重的不同使用方式,上述根据权重确定标注参考信息的处理方式可以多种多样,以下给出了几种可行的处理方式:
方式(一),将权重最大的目标数据获取地址下目标实体对应的标注参考信息,确定目标实体最终对应的标注参考信息。
在实施中,确定出每个目标数据获取地址下目标实体对应的标注参考信息后,服务器可以确定权重最大的目标数据获取地址,进而,可以将权重最大的目标数据获取地址下目标实体对应的标注参考信息,确定目标实体最终对应的标注参考信息。
方式(二),基于每个目标数据获取地址对应的权重、以及每个目标数据获取地址下目标实体对应的标注参考信息,确定每个不同的标注参考信息对应的评分;根据每个不同的标注参考信息对应的评分,将评分满足预设评分条件的标注参考信息,确定为目标实体最终对应的标注参考信息。
在实施中,确定出每个目标数据获取地址下目标实体对应的标注参考信息后,对于每个不同的标注参考信息,服务器可以确定该标注参考信息对应的所有目标数据获取地址,进而,可以将确定出的所有目标数据获取地址对应的权重相加,得到该标注参考信息对应的评分。得到每个不同的标注参考信息对应的评分后,可以将评分满足预设评分条件的标注参考信息,确定为目标实体对应的标注参考信息,比如,可以将评分大于预设评分阈值的标注参考信息确定为目标实体最终对应的标注参考信息,或者,可以将评分最大的预设数目个标注参考信息确定为目标实体最终对应的标注参考信息。例如,确定出的目标数据获取地址包括p、q、r,分别对应的权重为1、2、3,目标数据获取地址p下目标实体对应的标注参考信息为x、目标数据获取地址q下目标实体对应的标注参考信息为y、目标数据获取地址r下目标实体对应的标注参考信息为x,则服务器可以确定标注参考信息x对应的评分为4、标注参考信息y对应的评分为2。如果预设评分条件是预设评分阈值、且预设评分阈值为3,则服务器可以将标注参考信息x确定为目标实体最终对应的标注参考信息;如果预设评分条件是评分最大的3个标注参考信息,则服务器可以将标注参考信息x、y确定为目标实体最终对应的标注参考信息。
方式二,基于异步的方式,步骤205的处理过程可以如下:在各领域信息下的各标注参考信息对应的实体集合中,确定目标领域信息下的各标注参考信息对应的实体集合;根据确定出的各标注参考信息对应的实体集合、以及目标实体,确定目标实体对应的标注参考信息。
在实施中,服务器本地中可以预先存储有各领域信息下的各标注参考信息对应的实体集合,其中,可以以表的形式存储,如表1所示,其中,每个领域信息可以包括相同的标注参考信息,也可以包括不同的标注参考信息,每个标注参考信息对应的实体集合可以是服务器预先爬取到的数据,并基于爬取到的数据得到的。例如,标注参考信息为歌手,则对应的实体集合可以是各歌手的名字,又例如,标注参考信息为歌曲,则对应的实体集合可以是各歌曲的歌曲名。
表1
服务器获取到目标实体和目标领域信息后,服务器可以从各领域信息下的各标注参考信息对应的实体集合中,确定目标领域信息下的各标注参考信息对应的实体集合。确定出实体集合后,服务器可以根据确定出的各标注参考信息对应的实体集合、以及目标实体,确定目标实体对应的标注参考信息。例如,可以将实体集合包含目标实体的标注参考信息确定为目标实体对应的标注参考信息。
另外,服务器可以同时支持方式一和方式二的方法。例如,当服务器获取到目标实体和目标领域信息后,可以先按照方式二的方式确定目标实体对应的标注参考信息,如果通过方式二能够确定出目标实体对应的标注参考信息,则服务器可以直接向终端发送标注参考信息,不再执行方式一的处理,如果通过方式二未能够确定出目标实体对应的标注参考信息,则服务器可以再执行方式一的处理,来确定目标实体对应的标注参考信息。
可选的,根据确定出的各标注参考信息对应的实体集合以及目标实体,确定目标实体对应的标注参考信息的具体处理可以如下:在确定出的各标注参考信息对应的实体集合中,确定对应的实体集合中存在与目标实体相匹配的实体的标注参考信息;将确定出的标注参考信息作为目标实体对应的标注参考信息。
在实施中,服务器中可以预先存储有各实体对应的近义词、同义词等,服务器确定出目标实体后,可以基于预习存储的各实体对应的近义词或同义词,确定目标实体对应的近义词或同义词。服务器确定出目标领域信息下的各标注参考信息对应的实体集合后,可以在确定出的各标注参考信息对应的实体集合中,确定存在与目标实体相匹配的实体的标注参考信息(比如,可以确定包含目标实体或者其对应的近义词、同义词的实体集合对应的标注参考信息),进而,可以将确定出的标注参考信息作为目标实体对应的标注参考信息。
可选的,在工作过程中,服务器还可以对各实体集合增加新的实体,相应的,服务器还可以进行如下处理:获取各领域信息对应的数据获取地址;对于每个领域信息,从该领域信息对应的数据获取地址中,爬取数据获取地址中存储的数据;对爬取到的数据进行分析,获取实体和标注参考信息的对应项;如果对应项中的标注参考信息对应的实体集合中不包括对应项中的实体,则将对应项中的实体添加到对应项中的标注参考信息对应的实体集合中。
在实施中,服务器中可以预先设置有实体更新触发事件,每当检测到实体更新触发事件发生时,可以执行更新实体集合的处理,其中,实体更新触发事件可以是预设的更新周期,即每到预设的更新周期时,服务器可以执行更新实体集合的处理。具体的,服务器可以获取预先存储的各领域信息对应的数据获取地址,对于每个领域信息,服务器可以通过爬虫技术从该领域信息对应的数据获取地址中,爬取数据获取地址中存储的数据,进而,可以对爬取到的数据进行分析,获取实体和标注参考信息的对应项,其中,分析方法可以参见上述确定目标实体对应的标注参考信息的方法。获取到实体和标注参考信息的对应项后,可以判断对应项中的标注参考信息对应的实体集合是否包括对应项中的实体,如果不包括,则服务器可以将对应项中的实体添加到对应项中的标注参考信息对应的实体集合中。
步骤206,服务器向终端发送目标实体对应的标注参考信息。
在实施中,服务器确定出目标实体对应的标注参考信息后,可以向终端发送目标实体对应的标注参考信息。另外,服务器还可以将目标实体对应的标注参考信息存储到数据库中。
步骤207,终端接收服务器发送的目标实体对应的标注参考信息。
在实施中,服务器向终端发送目标实体对应的标注参考信息后,终端可以接收服务器发送的目标实体对应的标注参考信息。
步骤208,终端在语义标注界面中,显示目标实体对应的标注参考信息。
在实施中,终端接收到服务器发送的目标实体对应的标注参考信息后,可以在语义标注界面,显示目标实体对应的标注参考信息,进而,标注人员可以根据标注参考信息对语料进行语义标注。
可选的,终端可以基于预先存储的提示文本模板生成提示信息,相应的,步骤208的处理过程可以如下:获取提示文本模板;根据提示文本模板与目标实体对应的标注参考信息,生成目标实体对应的提示信息;在语义标注界面中,显示目标实体对应的提示信息,该提示信息包括标注参考信息。
在实施中,终端中可以预先存储有提示文本模板。终端接收到服务器发送的目标实体对应的标注参考信息后,可以获取提示文本模板(比如,提示文本模板是实体W是标注参考信息V),进而,可以将目标实体及其对应的标注参考信息带入到提示文本模板中,生成目标实体对应的提示信息。生成提示信息后,终端可以在语义标注界面中,显示目标实体对应的提示信息。例如,语料是“我想听刘德华的冰雨”,目标实体是“刘德华”、“冰雨”,“刘德华”对应的标注参考信息为歌手,“冰雨”对应的标注参考信息为歌曲,则提示信息、标注后的语料可以如图3所示。其中,提示信息可以是多个,此种情况下,终端可以在提示信息的显示框中设置有下拉菜单,标注人员可以通过下拉菜单查看多个提示信息。
另外,针对目标实体对应的目标领域信息是多个的情况,服务器可以分别确定每个目标领域信息下目标实体对应的标注参考信息,进而,可以基于每个领域信息下目标实体对应的标注参考信息,确定目标实体最终对应的标注参考信息,系统逻辑框架示意图可以如图4所示,N为目标领域信息的总数目。其中,核心处理模块可以通过领域总控处,确定每个目标领域信息下目标实体对应的标注参考信息(其中,核心处理模块可以包括通用配置(即上述的文本构成规则)、资源列表(即上述的数据获取地址)),进而,可以将其传输至多资源汇总结果模块。多资源汇总模块可以确定每个不同的标注参考信息对应的评分(比如,服务器可以将每个标注参考信息的出现次数,确定为对应的评分),进而,可以对每个不同的标注参考信息进行排序,最后,可以将排序后的标注参考信息传输至数据库,并将其发送至终端。其中,相关伪代码可以如下:
另外上述步骤也可均由终端实现,相应步骤的具体实现方式与上述类似,不再进行赘述。此种情况下,终端可以通过一个模块向另一个模块发送标注参考信息获取请求,并可以接收另一模块发送的目标实体对应的标注参考信息。
本发明实施例中,终端可以在语义标注的过程中,获取待标注的语料包含的目标实体对应的标注参考信息,进而,可以在语义标注界面显示目标实体对应的标注参考信息,以便标注人员可以根据终端显示的标注参考信息对目标实体进行语义标注,从而,可以避免标注人员遇到不了解的实体时,再进行相关搜索,进而,可以提高语义标注的效率。
基于相同的技术构思,本发明实施例还提供了一种语义标注的装置,如图5所示,该装置可以是上述终端,该装置包括:
第一显示模块510,用于显示语义标注界面,所述语义标注界面中显示有待标注的语料;
第一获取模块520,用于获取所述语料中已指定的目标实体;
发送模块530,用于发送标注参考信息获取请求,所述标注参考信息获取请求中携带有所述目标实体,所述标注参考信息获取请求用于获取根据所述目标实体和所述语料对应的目标领域信息确定出的所述目标实体对应的标注参考信息;
接收模块540,用于接收所述目标实体对应的标注参考信息;
第二显示模块550,用于在所述语义标注界面中,显示所述目标实体对应的标注参考信息。
可选的,所述第二显示模块550,用于:
获取提示文本模板;
根据所述提示文本模板与所述目标实体对应的标注参考信息,生成所述目标实体对应的提示信息;
在所述语义标注界面中,显示所述目标实体对应的提示信息,所述提示信息包括所述标注参考信息。
可选的,所述标注参考信息获取请求中还携带所述目标领域信息,所述获取模块520还用于:
获取已指定的所述语料对应的目标领域信息。
可选的,如图6所示,所述装置还包括:
第一确定模块560,用于在各领域信息对应的数据获取地址中,确定目标领域信息对应的目标数据获取地址,所述目标领域信息是所述语料对应的领域信息;
第一爬取模块570,用于从目标数据获取地址中,爬取与所述目标实体相关的数据;
第二确定模块580,用于根据爬取到的与所述目标实体相关的数据,确定所述目标实体对应的标注参考信息。
可选的,所述第二确定模块580,用于:
如果爬取到的与目标实体相关的数据为包含目标实体的文本数据,则获取各标注参考信息对应的文本构成规则;
如果爬取到的与所述目标实体相关的文本数据中,存在符合各文本构成规则中第一文本构成规则的文本数据,则将所述第一文本构成规则对应的标注参考信息确定为所述目标实体对应的参考标注信息。
可选的,所述第二确定模块580,用于:
如果爬取到的与所述目标实体相关的数据为所述目标实体所属的类别,则将所述类别确定为所述目标实体对应的标注参考信息。
可选的,所述第二确定模块580,用于:
当所述目标数据获取地址为多个时,根据从每个目标数据获取地址爬取到的与所述目标实体相关的数据,确定每个目标数据获取地址下所述目标实体对应的标注参考信息;
基于每个目标数据获取地址对应的权重、以及每个目标数据获取地址下所述目标实体对应的标注参考信息,确定所述目标实体最终对应的标注参考信息。
可选的,所述第二确定模块580,用于:
将权重最大的目标数据获取地址下所述目标实体对应的标注参考信息,确定所述目标实体最终对应的标注参考信息;或者,
基于每个目标数据获取地址对应的权重、以及每个目标数据获取地址下所述目标实体对应的标注参考信息,确定每个不同的标注参考信息对应的评分;
根据每个不同的标注参考信息对应的评分,将评分满足预设评分条件的标注参考信息,确定为所述目标实体最终对应的标注参考信息。
可选的,如图7所示,所述装置还包括:
第三确定模块590,用于在各领域信息下的各标注参考信息对应的实体集合中,确定目标领域信息下的各标注参考信息对应的实体集合,所述目标领域信息是所述语料对应的领域信息;
第四确定模块5100,用于根据确定出的各标注参考信息对应的实体集合、以及所述目标实体,确定所述目标实体对应的标注参考信息。
可选的,所述第四确定模块5100,用于:
在确定出的各标注参考信息对应的实体集合中,确定对应的实体集合中存在与所述目标实体相匹配的实体的标注参考信息;
将确定出的标注参考信息作为所述目标实体对应的标注参考信息。
可选的,如图8所示,所述装置还包括:
第二获取模块5110,用于获取各领域信息对应的数据获取地址;
第二爬取模块5120,用于对于每个领域信息,从所述领域信息对应的数据获取地址中,爬取数据获取地址中存储的数据;
第三获取模块5130,用于对爬取到的数据进行分析,获取实体和标注参考信息的对应项;
添加模块5140,用于如果所述对应项中的标注参考信息对应的实体集合中不包括所述对应项中的实体,则将所述对应项中的实体添加到所述对应项中的标注参考信息对应的实体集合中。
本发明实施例中,终端可以在语义标注的过程中,获取待标注的语料包含的目标实体对应的标注参考信息,进而,可以在语义标注界面显示目标实体对应的标注参考信息,以便标注人员可以根据终端显示的标注参考信息对目标实体进行语义标注,从而,可以避免标注人员遇到不了解的实体时,再进行相关搜索,进而,可以提高语义标注的效率。
需要说明的是:上述实施例提供的语义标注的装置在语义标注时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将终端的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的语义标注的装置与语义标注的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图9示出了本发明一个示例性实施例提供的终端900的结构框图。该终端900可以是:智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio LayerIV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端900还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端900包括有:处理器901和存储器902。
处理器901可以包括一个或多个处理核心,比如4核心处理器、9核心处理器等。处理器901可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器901可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器901还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器902可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器901所执行以实现本申请中方法实施例提供的语义标注的方法。
在一些实施例中,终端900还可选包括有:外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地,外围设备包括:射频电路904、触摸显示屏905、摄像头906、音频电路907、定位组件908和电源909中的至少一种。
外围设备接口903可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中,处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上;在一些其他实施例中,处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路904用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路904包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路904还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏905用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时,显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时,显示屏905还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏905可以为一个,设置终端900的前面板;在另一些实施例中,显示屏905可以为至少两个,分别设置在终端900的不同表面或呈折叠设计;在再一些实施例中,显示屏905可以是柔性显示屏,设置在终端900的弯曲表面上或折叠面上。甚至,显示屏905还可以设置成非矩形的不规则图形,也即异形屏。显示屏905可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件906用于采集图像或视频。可选地,摄像头组件906包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器901进行处理,或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路907还可以包括耳机插孔。
定位组件908用于定位终端900的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件908可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源909用于为终端900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于:加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。
加速度传感器911可以检测以终端900建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号,控制触摸显示屏905以横向视图或纵向视图进行用户界面的显示。加速度传感器911还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器912可以检测终端900的机体方向及转动角度,陀螺仪传感器912可以与加速度传感器911协同采集用户对终端900的3D动作。处理器901根据陀螺仪传感器912采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器913可以设置在终端900的侧边框和/或触摸显示屏905的下层。当压力传感器913设置在终端900的侧边框时,可以检测用户对终端900的握持信号,由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在触摸显示屏905的下层时,由处理器901根据用户对触摸显示屏905的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器914用于采集用户的指纹,由处理器901根据指纹传感器914采集到的指纹识别用户的身份,或者,由指纹传感器914根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器901授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器914可以被设置终端900的正面、背面或侧面。当终端900上设置有物理按键或厂商Logo时,指纹传感器914可以与物理按键或厂商Logo集成在一起。
光学传感器915用于采集环境光强度。在一个实施例中,处理器901可以根据光学传感器915采集的环境光强度,控制触摸显示屏905的显示亮度。具体地,当环境光强度较高时,调高触摸显示屏905的显示亮度;当环境光强度较低时,调低触摸显示屏905的显示亮度。在另一个实施例中,处理器901还可以根据光学传感器915采集的环境光强度,动态调整摄像头组件906的拍摄参数。
接近传感器916,也称距离传感器,通常设置在终端900的前面板。接近传感器916用于采集用户与终端900的正面之间的距离。在一个实施例中,当接近传感器916检测到用户与终端900的正面之间的距离逐渐变小时,由处理器901控制触摸显示屏905从亮屏状态切换为息屏状态;当接近传感器916检测到用户与终端900的正面之间的距离逐渐变大时,由处理器901控制触摸显示屏905从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图9中示出的结构并不构成对终端900的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
本发明实施例中,终端可以在语义标注的过程中,获取待标注的语料包含的目标实体对应的标注参考信息,进而,可以在语义标注界面显示目标实体对应的标注参考信息,以便标注人员可以根据终端显示的标注参考信息对目标实体进行语义标注,从而,可以避免标注人员遇到不了解的实体时,再进行相关搜索,进而,可以提高语义标注的效率。
图10是本发明实施例提供的一种服务器的结构示意图,该服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processingunits,CPU)1001和一个或一个以上的存储器1002,其中,所述存储器1002中存储有至少一条指令,所述至少一条指令由所述处理器1001加载并执行以实现上述语义标注的方法步骤。
本发明实施例还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述的语义标注的方法。
本发明实施例中,终端可以在语义标注的过程中,获取待标注的语料包含的目标实体对应的标注参考信息,进而,可以在语义标注界面显示目标实体对应的标注参考信息,以便标注人员可以根据终端显示的标注参考信息对目标实体进行语义标注,从而,可以避免标注人员遇到不了解的实体时,再进行相关搜索,进而,可以提高语义标注的效率。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的一个实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种语义标注的方法,其特征在于,所述方法包括:
显示语义标注界面,所述语义标注界面中显示有待标注的语料;
获取所述语料中已指定的目标实体;
发送标注参考信息获取请求,所述标注参考信息获取请求中携带有所述目标实体,所述标注参考信息获取请求用于获取根据所述目标实体和所述语料对应的目标领域信息确定出的所述目标实体对应的标注参考信息;
接收所述目标实体对应的标注参考信息;
在所述语义标注界面中,显示所述目标实体对应的标注参考信息。
2.根据权利要求1所述的方法,其特征在于,所述在所述语义标注界面中,显示所述目标实体对应的标注参考信息,包括:
获取提示文本模板;
根据所述提示文本模板与所述目标实体对应的标注参考信息,生成所述目标实体对应的提示信息;
在所述语义标注界面中,显示所述目标实体对应的提示信息,所述提示信息包括所述标注参考信息。
3.根据权利要求1所述的方法,其特征在于,所述标注参考信息获取请求中还携带所述目标领域信息,所述方法还包括:获取已指定的所述语料对应的目标领域信息。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在各领域信息对应的数据获取地址中,确定目标领域信息对应的目标数据获取地址,所述目标领域信息是所述语料对应的领域信息;
从目标数据获取地址中,爬取与所述目标实体相关的数据;
根据爬取到的与所述目标实体相关的数据,确定所述目标实体对应的标注参考信息。
5.根据权利要求4所述的方法,其特征在于,所述根据爬取到的与所述目标实体相关的数据,确定所述目标实体对应的标注参考信息,包括:
如果爬取到的与目标实体相关的数据为包含目标实体的文本数据,则获取各标注参考信息对应的文本构成规则;
如果爬取到的与所述目标实体相关的文本数据中,存在符合各文本构成规则中第一文本构成规则的文本数据,则将所述第一文本构成规则对应的标注参考信息确定为所述目标实体对应的参考标注信息。
6.根据权利要求4所述的方法,其特征在于,所述根据爬取到的与所述目标实体相关的数据,确定所述目标实体对应的标注参考信息,包括:
如果爬取到的与所述目标实体相关的数据为所述目标实体所属的类别,则将所述类别确定为所述目标实体对应的标注参考信息。
7.根据权利要求4所述的方法,其特征在于,当所述目标数据获取地址为多个时,所述根据爬取到的与所述目标实体相关的数据,确定所述目标实体对应的标注参考信息,包括:
根据从每个目标数据获取地址爬取到的与所述目标实体相关的数据,确定每个目标数据获取地址下所述目标实体对应的标注参考信息;
基于每个目标数据获取地址对应的权重、以及每个目标数据获取地址下所述目标实体对应的标注参考信息,确定所述目标实体最终对应的标注参考信息。
8.根据权利要求7所述的方法,其特征在于,所述基于每个目标数据获取地址对应的权重、以及每个目标数据获取地址下所述目标实体对应的标注参考信息,确定所述目标实体最终对应的标注参考信息,包括:
将权重最大的目标数据获取地址下所述目标实体对应的标注参考信息,确定所述目标实体最终对应的标注参考信息;或者,
基于每个目标数据获取地址对应的权重、以及每个目标数据获取地址下所述目标实体对应的标注参考信息,确定每个不同的标注参考信息对应的评分;
根据每个不同的标注参考信息对应的评分,将评分满足预设评分条件的标注参考信息,确定为所述目标实体最终对应的标注参考信息。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在各领域信息下的各标注参考信息对应的实体集合中,确定目标领域信息下的各标注参考信息对应的实体集合,所述目标领域信息是所述语料对应的领域信息;
根据确定出的各标注参考信息对应的实体集合、以及所述目标实体,确定所述目标实体对应的标注参考信息。
10.根据权利要求9所述的方法,其特征在于,所述根据确定出的各标注参考信息对应的实体集合、以及所述目标实体,确定所述目标实体对应的标注参考信息,包括:
在确定出的各标注参考信息对应的实体集合中,确定对应的实体集合中存在与所述目标实体相匹配的实体的标注参考信息;
将确定出的标注参考信息作为所述目标实体对应的标注参考信息。
11.根据权利要求9所述的方法,其特征在于,所述方法还包括:
获取各领域信息对应的数据获取地址;
对于每个领域信息,从所述领域信息对应的数据获取地址中,爬取数据获取地址中存储的数据;
对爬取到的数据进行分析,获取实体和标注参考信息的对应项;
如果所述对应项中的标注参考信息对应的实体集合中不包括所述对应项中的实体,则将所述对应项中的实体添加到所述对应项中的标注参考信息对应的实体集合中。
12.一种语义标注的装置,其特征在于,所述装置包括:
第一显示模块,用于显示语义标注界面,所述语义标注界面中显示有待标注的语料;
第一获取模块,用于获取所述语料中已指定的目标实体;
发送模块,用于发送标注参考信息获取请求,所述标注参考信息获取请求中携带有所述目标实体,所述标注参考信息获取请求用于获取根据所述目标实体和所述语料对应的目标领域信息确定出的所述目标实体对应的标注参考信息;
接收模块,用于接收所述目标实体对应的标注参考信息;
第二显示模块,用于在所述语义标注界面中,显示所述目标实体对应的标注参考信息。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至11任一所述的语义标注的方法。
14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至11任一所述的语义标注的方法。
CN201810494763.4A 2018-05-22 2018-05-22 语义标注的方法、装置、计算机设备、可读存储介质 Pending CN108710612A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810494763.4A CN108710612A (zh) 2018-05-22 2018-05-22 语义标注的方法、装置、计算机设备、可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810494763.4A CN108710612A (zh) 2018-05-22 2018-05-22 语义标注的方法、装置、计算机设备、可读存储介质

Publications (1)

Publication Number Publication Date
CN108710612A true CN108710612A (zh) 2018-10-26

Family

ID=63868584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810494763.4A Pending CN108710612A (zh) 2018-05-22 2018-05-22 语义标注的方法、装置、计算机设备、可读存储介质

Country Status (1)

Country Link
CN (1) CN108710612A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674638A (zh) * 2019-09-23 2020-01-10 百度在线网络技术(北京)有限公司 语料标注系统及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101571859A (zh) * 2008-04-28 2009-11-04 国际商业机器公司 用于对文档进行标注的方法和设备
CN102436456A (zh) * 2010-09-29 2012-05-02 国际商业机器公司 用于对命名实体进行分类的方法和装置
US20170068744A1 (en) * 2010-04-21 2017-03-09 Facebook, Inc. Social graph that includes web pages outside of a social networking system
CN106874256A (zh) * 2015-12-11 2017-06-20 北京国双科技有限公司 识别领域命名实体的方法及装置
CN106874378A (zh) * 2017-01-05 2017-06-20 北京工商大学 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
US20170228367A1 (en) * 2012-04-20 2017-08-10 Maluuba Inc. Conversational agent

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101571859A (zh) * 2008-04-28 2009-11-04 国际商业机器公司 用于对文档进行标注的方法和设备
US20170068744A1 (en) * 2010-04-21 2017-03-09 Facebook, Inc. Social graph that includes web pages outside of a social networking system
CN102436456A (zh) * 2010-09-29 2012-05-02 国际商业机器公司 用于对命名实体进行分类的方法和装置
US20170228367A1 (en) * 2012-04-20 2017-08-10 Maluuba Inc. Conversational agent
CN106874256A (zh) * 2015-12-11 2017-06-20 北京国双科技有限公司 识别领域命名实体的方法及装置
CN106874378A (zh) * 2017-01-05 2017-06-20 北京工商大学 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110674638A (zh) * 2019-09-23 2020-01-10 百度在线网络技术(北京)有限公司 语料标注系统及电子设备
CN110674638B (zh) * 2019-09-23 2023-12-01 百度在线网络技术(北京)有限公司 语料标注系统及电子设备

Similar Documents

Publication Publication Date Title
CN108304441A (zh) 网络资源推荐方法、装置、电子设备、服务器及存储介质
CN109918669A (zh) 实体确定方法、装置及存储介质
WO2021164652A1 (zh) 多媒体资源的展示方法、提供方法
CN107959893A (zh) 显示账户头像的方法和装置
CN108717432A (zh) 资源查询方法及装置
CN110096525A (zh) 校准兴趣点信息的方法、装置、设备及存储介质
CN108320756A (zh) 一种检测音频是否是纯音乐音频的方法和装置
CN109922356A (zh) 视频推荐方法、装置和计算机可读存储介质
CN110248236A (zh) 视频播放方法、装置、终端及存储介质
CN110020880A (zh) 广告投放方法、装置及设备
CN111031391A (zh) 视频配乐方法、装置、服务器、终端及存储介质
CN110147503A (zh) 信息发布方法、装置、计算机设备和存储介质
CN114238812B (zh) 信息展示方法、装置、计算机设备及介质
CN109218751A (zh) 推荐音频的方法、装置及系统
CN108806670A (zh) 语音识别方法、装置及存储介质
CN109902089B (zh) 利用异构索引的查询方法、装置、电子设备及介质
CN107656794A (zh) 界面显示方法和装置
CN110244999A (zh) 控制目标应用程序运行的方法、装置、设备及存储介质
CN110032702A (zh) 网页显示方法、装置、设备及存储介质
CN109635202A (zh) 内容项处理方法、装置、电子设备及存储介质
CN109547847A (zh) 添加视频信息的方法、装置及计算机可读存储介质
CN110020690A (zh) 一种作弊行为检测方法、装置及存储介质
CN109933594A (zh) 获取数据的方法、装置、电子设备及介质
CN109189978A (zh) 基于语音消息进行音频搜索的方法、装置及存储介质
CN108495183A (zh) 显示专辑信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination