CN114372446B - 一种车属性标注方法、设备及存储介质 - Google Patents
一种车属性标注方法、设备及存储介质 Download PDFInfo
- Publication number
- CN114372446B CN114372446B CN202111523094.7A CN202111523094A CN114372446B CN 114372446 B CN114372446 B CN 114372446B CN 202111523094 A CN202111523094 A CN 202111523094A CN 114372446 B CN114372446 B CN 114372446B
- Authority
- CN
- China
- Prior art keywords
- corpus
- target
- vehicle attribute
- data
- objects
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Traffic Control Systems (AREA)
Abstract
本申请实施例提供一种车属性标注方法、设备及存储介质。在本申请实施例中,可从语料数据中抽取出车属性关键词,并为有语料对象确定所对应的车属性关键词;在此基础上,可从有语料对象中,为无语料对象选择参考对象;并基于参考对象关联的车属性关键词来确定对应的无语料对象应关联的车属性关键词。这样,可从少量语料中获取尽可能多的有代表性的车属性关键词,使语料较少或无语料的对象都能获得优良的车属性关键词,从而提高车属性标注的效率和准确性。当然,还可与专家标注相结合,在语料较少或无语料的对象下为专家精准提供候选词,从而加速专家标注效率。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种车属性标注方法、设备及存储介质。
背景技术
目前,对于车辆领域的抽象属性一般有两种标注方式,一种是专家标注,另一种是数据挖掘。
对于语料数据不足的车型,由于无法满足数据挖掘方式所需的数据量要求,因此,只能依赖专家标注方式进行抽象属性的标注,但是,专家标注方式的成本过高、效率过低,给标注工作带来困难。
发明内容
本申请的多个方面提供一种车属性标注方法、设备及存储介质,用以在语料数据不足的情况下,提高车属性的标注效率。
本申请实施例提供一种车属性标注方法,包括:
响应于车属性标注指令,确定多个待标注对象;
获取语料数据;
从所述语料数据中抽取车属性关键词;
分别确定所述多个待标注对象中已被所述语料数据覆盖的至少一个有语料对象各自对应的车属性关键词;
从所述至少一个有语料对象中,为所述多个待标注对象中未被所述语料数据覆盖的至少一个无语料对象选择参考对象;
基于所述至少一个无语料对象各自对应的参考对象关联的车辆属性关键词,确定所述至少一个无语料对象各自对应的车属性关键词;
按照所述至少一个待标注对象各自对应的车属性关键词,对所述至少一个待标注对象进行车属性标注。
本申请实施例还提供一种计算设备,包括存储器和处理器;
所述存储器用于存储一条或多条计算机指令;
所述处理器与所述存储器耦合,用于执行所述一条或多条计算机指令,以用于:
响应于车属性标注指令,确定多个待标注对象;
获取语料数据;
从所述语料数据中抽取车属性关键词;
分别确定所述多个待标注对象中已被所述语料数据覆盖的至少一个有语料对象各自对应的车属性关键词;
从所述至少一个有语料对象中,为所述多个待标注对象中未被所述语料数据覆盖的至少一个无语料对象选择参考对象;
基于所述至少一个无语料对象各自对应的参考对象关联的车辆属性关键词,确定所述至少一个无语料对象各自对应的车属性关键词;
按照所述至少一个待标注对象各自对应的车属性关键词,对所述至少一个待标注对象进行车属性标注。
本申请实施例还提供一种存储计算机指令的计算机可读存储介质,当所述计算机指令被一个或多个处理器执行时,致使所述一个或多个处理器执行前述的车属性标注方法。
在本申请实施例中,可从语料数据中抽取出车属性关键词,并为有语料对象确定所对应的车属性关键词;在此基础上,可从有语料对象中,为无语料对象选择参考对象;并基于参考对象关联的车属性关键词来确定对应的无语料对象应关联的车属性关键词。这样,可从少量语料中获取尽可能多的有代表性的车属性关键词,使语料较少或无语料的对象都能获得优良的车属性关键词,从而提高车属性标注的效率和准确性。当然,还可与专家标注相结合,在语料较少或无语料的对象下为专家精准提供候选词,从而加速专家标注效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请一示例性实施例提供的一种车属性标注方法的流程示意图;
图2为本申请一示例性实施例提供的一种车属性标注方案的逻辑示意图;
图3为本申请另一示例性实施例提供的一种计算设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,对于语料数据不足的情况,只能依赖专家标注方式进行抽象属性的标注,但是,专家标注方式的成本过高、效率过低,给标注工作带来困难。为此,本申请的一些实施例中:可从语料数据中抽取出车属性关键词,并为有语料对象确定所对应的车属性关键词;在此基础上,可从有语料对象中,为无语料对象选择参考对象;并基于参考对象关联的车属性关键词来确定对应的无语料对象应关联的车属性关键词。这样,可从少量语料中获取尽可能多的有代表性的车属性关键词,使语料较少或无语料的对象都能获得优良的车属性关键词,从而提高车属性标注的效率和准确性。当然,还可与专家标注相结合,在语料较少或无语料的对象下为专家精准提供候选词,从而加速专家标注效率。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1为本申请一示例性实施例提供的一种车属性标注方法的流程示意图。图2为本申请一示例性实施例提供的一种车属性标注方案的逻辑示意图。该方法可由数据处理装置执行,该数据处理装置可实现为软件和/或硬件的结合,该数据处理装置可集成在计算设备中。参考图1,该方法包括:
步骤100、响应于车属性标注指令,确定多个待标注对象;
步骤101、获取语料数据;
步骤102、从语料数据中抽取车属性关键词;
步骤103、分别确定多个待标注对象中已被语料数据覆盖的至少一个有语料对象各自对应的车属性关键词;
步骤104、从至少一个有语料对象中,为多个待标注对象中未被语料数据覆盖的至少一个无语料对象选择参考对象;
步骤105、基于至少一个无语料对象各自对应的参考对象关联的车辆属性关键词,确定至少一个无语料对象各自对应的车属性关键词;
步骤106、按照至少一个待标注对象各自对应的车属性关键词,对至少一个待标注对象进行车属性标注。
本实施例提供的车属性标注方案可应用于各种需要对车属性进行标注的场景中,例如、电商平台、门户网站、广告推广等等,本实施例对应用场景不做限定。在不同的应用场景中,由于标注需求的不同,待标注对象可能是多种多样的。对此,本实施例中,待标注对象可以包括但不限于车型、车系、品牌等,其中,车型可用于表征某一款车的型号,例如,XXX2021款运动型。车系可表征广义的同系列车型,例如,美系车、B级车等,也可表征狭义的同品牌下的一系列车,例如,XXX2021系车。这些仅是示例性的,本实施例对待标注对象的维度、规格、范围等属性均不作限定,可根据实际需求进行设定。
本实施例中,语料数据的来源可包括但不限于客户评论、专家评论、测评文章、购买人群画像或其它与车辆相关的描述数据。本实施例所提及的车属性通常是指抽象属性,也即是非官方公布的性能属性。这样,通过本实施例提供的车属性标注方案,可实现从用户的角度对待标注对象进行描述。
实际应用中,尽管语料数据的来源广泛,但是从这些来源渠道获取的原始语料的数量并不多,而且,原始语料对待标注对象的覆盖率也不足,很多待标注对象根本就不存在原始语料,因此,这部分待标注对象只能依赖专家来进行车属性标注,费时费力、准确率也不足。
为此,本实施例中,可对对原始语料进行扩增,以获得扩增后语料;将扩增后语料混合至通用语料中,以产生语料数据。这里,一方面我们对原始语料进行了扩增,扩增的方式包括但不限于近义词替换、重复翻译等等。另一方面,我们还将扩增后语料混合至通用语料中,以避免因扩增后语料专注于车辆领域而造成结果偏见,其中,通用语料可取自目前或将来存在的任意通用语料库,在此不做限定。这样,可有效提高语料数据中的语料规模,为后续处理过程提供更好的数据基础。另外,本实施例中,可在语料扩增过程中,记录扩增出的语料与原始语料之间的扩增关系,还可记录扩增出的语料中的词与原始语料中的词之间的扩增关系。例如,对于原始语料“适合长途旅行”,可基于“长途”的近义词,扩增出至少2条语料“适合远途旅行”、“适合远程旅行”,对此,可分别在两条扩增出的语料中标注“远途”和“远程”与前述的原始语料中的“长途”存在扩增关系。通过记录扩增关系,可将扩增出的语料中的词与原始语料中的词关联起来,从而将扩增出的语料中的词顺利引入到后续的步骤103-106中。
参考图1和图2,在步骤102中,可从语料数据中抽取车属性关键词。在一种示例性方案中:可抽取语料数据中包含的常见词;对常见词进行词过滤,以获得车属性关键词。在该示例性方案中,可采用多种实现方式来进行常见词的抽取。举例来说,可计算语料数据中包含的各种字组合片段的凝聚度和/或自由度,并基于字组合片段的凝聚度和/或自由度,确定语料数据中存在的常见词。其中,凝聚度就是一个字组合片段里面字与字之间的紧密程度。比如“琉璃”、“榴莲”这样的词的凝固度就非常高,而“华为”、“组合”这样的词的凝固度就比较低。自由度就是一个字组合片段能独立自由运用的程度。比如“巧克力”里面的“巧克”的凝固度就很高,和“巧克力”一样高,但是它自由运用的程度几乎为零,所以“巧克”不能单独成词。值得说明的是,本实施例还可采用其它词抽取方式从语料数据中抽取常见词,本实施例并不限于此。
在该示例性方案中,还可对对常见词进行词过滤,以获得车属性关键词。本实施例中,车属性关键词用于描述待标注对象的抽象属性。几种示例性的车属性关键词可以是:好看、大气、适合女生、动力不足、yyds(网络语)、推背等等。一种可选的词过滤方式可以是:从常见词中选取未出现在原始语料中的待过滤词;从待过滤词中剔除与车辆领域无关的无关词;将常见词中出现在原始语料中的词和待过滤词经过过滤后剩余的词,作为车属性关键词。在上述从语料数据中抽取常见词的过程中,可记录常见词与语料之间的包含关系,也即是,记录语料数据中每条语料所抽取出的常见词。而正如上文提及的,语料数据中除了原始语料外,还可能包含扩增出的语料以及通用语料,因此,这里将语料数据中的语料分为两类:原始语料和非原始语料。在该可选的词过滤方式中,可将非原始语料包含的常见词作为待过滤词,针对待过滤词,可剔除其中与车辆领域无关的无关词。正如前文提及的,待过滤词是语料扩增过程中引入的近义词、翻译词等,待过滤词中可能存在与车辆领域无关的无关系,例如,原始语料中存在词“推背”,通过语料扩增引入了其近义词“推力”,而“推力”其实是与车辆领域无关的无关词,可被剔除。这里剔除近义词的目的主要是为了精简车属性关键词,尤其是将前述的因扩增语料和/或引入通用语料而产生的冗余车属性关键词进行精简。可选地,针对原始语料中包含的常见词,本实施例中,也可剔除其中与车辆领域无关的无关词,为了谨慎起见,在原始语料包含的常见词中剔除无关词的过程可引入专家经验。
这样,可从语料数据中抽取出车属性关键词,应当理解的是,上述的车属性关键词抽取环节尚未从待标注对象的维度进行车属性关键词的分配,这里获得的车属性关键词相当于一个基础的关键词词库。
参考图1和图2,本实施例中可基于从语料数据中抽取出的车属性关键词,为多个待标注对象分别确定对应的车属性关键词。本实施例中,将待标注对象划分为两类:有语料对象和无语料对象。其中,有语料对象可以是指已被语料数据覆盖的待标注对象,也即是,有语料对象具备语料;无语料对象可以是指未被语料数据覆盖的待标注对象,也即是,无语料数据不具备语料。
针对有语料对象,参考图1和图2,在步骤103中,可分别确定多个待标注对象中的至少一个有语料对象各自对应的车属性关键词。本实施例中,可记录有语料对象与语料数据中各条语料之间的覆盖关系,该覆盖关系可在收集语料数据时进行标注,例如,在收集原始语料时,可对原始语料中的每条语料标注所覆盖的有语料对象,在此不再详述。这样,基于前述的车属性关键词的抽取环节,本实施例中可确定车属性关键词与语料数据中各条语料之间的包含关系,再结合有语料对象与语料之间的覆盖关系,即可无障碍地确定出各有语料对象各自对应的车属性关键词。
另外,本实施例中,还可在此处加入专家审核逻辑,也即是,将上述为各有语料对象确定出的车属性关键词提供给专家,由专家对该处理结果进行审核、修正。
针对无语料对象,本实施例中,参考图1和图2,在步骤104中,可从至少一个有语料对象中,为多个待标注对象中未被语料数据覆盖的至少一个无语料对象选择参考对象;在步骤105中,可基于至少一个无语料对象各自对应的参考对象关联的车辆属性关键词,确定至少一个无语料对象各自对应的车属性关键词。其中,由于无语料对象不具备语料,因此,无法直接确定其对应的车属性关键词,本实施例中采用间接确定的方式,在有语料对象中为无语料对象寻找合适的参考对象,并以参考对象对应的车属性关键词作为参考,来为无语料对象确定车属性关键词,这样,可将有语料对象对应的车属性关键词扩展至无语料对象下,从而是无语料对象不再因不具备语料而无法获得车属性关键词。
本实施例中,可在此处加入专家补充和/或专家审核逻辑。通过参考的方式来为无语料对象确定车属性关键词,可能存在漏缺或不匹配等问题,这里通过引入专家参与,可有效提高为无语料对象确定出的车属性关键词的准确性。
至此,多个待标注对象均获得了车属性关键词,在此基础上,参考图1和图2,在步骤106中,可按照至少一个待标注对象各自对应的车属性关键词,对至少一个待标注对象进行车属性标注。在一种实现方式中,可直接将为至少一个待标注对象确定出车属性关键词,自动标注至相应的待标注对象下。在另一种实现方式中,可引入专家审核逻辑,也即是将上述确定出的至少一个待标注对象各自对应的车属性关键词提供给专家进行审核,由专家进行确认、修正。
另外,在完成车属性标注工作后,还可引入专家复审环节,也即是,将上述的车属性标注结果提供给专家进行复审,以进一步确保车属性标注的准确性。
其中,上述涉及到专家参与的环节中,可至少引入两名专家参与同一环节,以避免主观偏见。而且,还可计算不同专家的处理意见之间的一致性,如果存在意见不一致的情况,还可交还专家进行进一步确认,以提高车属性标注的准确性。应当理解的是,虽然本实施例中的部分环节中可引入专家参与,但是已经将传统的专家标注工作转换为可专家审核/补充工作,这依然可大幅度提高车属性标注效率。
综上,本实施例中,可从语料数据中抽取出车属性关键词,并为有语料对象确定所对应的车属性关键词;在此基础上,可从有语料对象中,为无语料对象选择参考对象;并基于参考对象关联的车属性关键词来确定对应的无语料对象应关联的车属性关键词。这样,可从少量语料中获取尽可能多的有代表性的车属性关键词,使语料较少或无语料的对象都能获得优良的车属性关键词,从而提高车属性标注的效率和准确性。当然,还可与专家标注相结合,在语料较少或无语料的对象下为专家精准提供候选词,从而加速专家标注效率。
在上述或下述实施例中,可采用多种实现方式来为有语料对象确定车属性关键词。
在一种实现方式中,可基于目标关键词,遍历原始语料,以确定与目标关键词匹配的至少一条目标语料;将目标关键词分别关联至至少一条目标语料所对应的有语料对象下;其中,目标关键词为车属性关键词中的任意一个。在该实现方式中,可在原始语料中,分别确定每一个车属性关键词所匹配的语料,再结合前述记录的待标注对象与语料之间的覆盖关系,可高效地为每一个待标注对象确定出适配的车属性关键词。
在另一种实现方式中,可从原始语料中,确定与目标有语料对象对应的至少一条目标语料;从车属性关键词中,查找与至少一条目标语料匹配的目标关键词;将目标关键词关联至目标有语料对象下;其中,目标有语料对象为至少一个有语料对象中的任意一个。在该实现方式中,可从有语料对象的角度出发,先查找相关的语料,再获取与语料匹配的车属性关键词,从而高效地确定出每个有语料对象应关联的车属性关键词。
在上述两种实现方式中,均涉及到确定目标语料与目标关键词是否匹配的问题,对此,在这两种实现方式中,可将确定目标语料与目标关键词匹配的条件设置为:目标语料中包含目标关键词;或者,目标语料中包含与目标关键词存在扩增关系的其它车属性关键词。这样,对于前文提及的通过语料扩增而产生的一类车属性关键词,可基于前文中记录的这类车属性关键词与原始语料中的车属性关键词之间的扩增关系,将源头的原始语料,从而可为全部的车属性关键词确定出各自所匹配的原始语料。
在又一种实现方式中,可构建目标关键词对应的目标词向量;分别计算目标词向量与原始语料中每条语料之间的向量距离;从原始语料中,选择符合向量距离要求的至少一条目标语料;将目标关键词分别关联至至少一条目标语料所对应的有语料对象下;其中,目标关键词为车属性关键词中的任意一个。在该实现方式中,可为每个车属性关键词分别构建词向量,并分别计算每个车属性关键词与原始语料中各条语料之间的向量距离,从而可根据向量距离找到每个车属性关键词在原始语料中应关联的语料。这样,车属性关键词中将不再存在前述的剩余词,而再结合前述记录的待标注对象与语料之间的覆盖关系,可高效地为每一个待标注对象确定出适配的车属性关键词。
在该实现方式中,还可引入专家审核逻辑,应当理解的是,不同于前面两种实现方式,这里专家不需要再执行剩余词的分配工作,而仅需对为每一个待标注对象所确定出的车属性关键词仅需审核即可。
值得说明的是,上述几种实现方式也仅是示例性的,本实施例中还可采用其它实现方式为有语料对象确定车属性关键词,而并不限于此。
在上述或下述实施例中,在为无语料对象选择参考对象的过程中,可获取目标无语料对象的车辆配置参数;基于车辆配置参数,从至少一个有语料对象中选择与目标无语料对象的相似度符合预设要求的目标对象,作为目标无语料对象对应的参考对象;其中,目标无语料对象为至少一个无语料对象中的任意一个。本实施例中,车辆配置参数可包括但不限于动力参数、外观参数、发动机参数、尺寸参数、颜色参数等等。通过比较两个待标注对象的车辆配置参数,可确定两个待标注对象之间的相似度,从而基于相似度为无语料对象查找参考对象。基于此,可为单个无语料对象确定出N个有语料对象作为参考对象,N可以为正整数。
若目标无语料对象对应的参考对象有多个,本实施例中,在为目标无语料对象确定车属性关键词的过程中:若目标无语料对象与其目标参考对象之间的相似度高于指定标准,则将目标参考对象关联的车属性关键词,全部关联至目标无语料对象;若目标无语料对象与其目标参考对象之间的相似度低于指定标准,则从目标参考对象关联的车属性关键词中,选择与目标参考对象之间的适配度符合指定条件的目标关键词,关联至目标无语料对象;其中,目标参考对象为目标无语料对象对应的参考对象中的任意一个。也即是,根据与目标无语料对象之间的相似度,将目标无语料对象对应的多个参考对象分为至少两类:相似度高于指定标准的一类和相似度低于指定标准的另一类。对于相似度高于指定标准的一类参考对象,可将这一类参考对象所对应的车属性关键词,全部关联至目标无语料对象;而对于相似度低于指定标准的一类参考对象,则可将这一类参考对象所对应的车属性关键性按照其与所属参考对象之间的适配度来筛选出部分车属性关键词,关联至目标无语料对象。
一种示例性确定车属性关键词与目标参考对象之间的适配度的方案可以是:在目标参考对象下,计算包含指定关键词的语料的数量与目标参考对象关联的语料的总数量中的占比,以表征指定关键词与目标参考对象之间的适配度,其中,指定关键词为目标参考对象关联的车属性关键词中的任意一个。举例来说,若目标参考对象关联有100条语料,而仅有10条语料中包含指定关键词,则可确定该示例性方案中的占比为0.1,在该示例性方案中,占比约小,适配度越低。
一种示例性确定车属性关键词与目标参考对象之间的适配度的方案可以是:在目标参考对象下,计算指定关键词的词向量与目标参考对象关联的各条语料之间的向量距离,以表征指定关键词与目标参考对象之间的适配度,其中,指定关键词为目标参考对象关联的车属性关键词中的任意一个。举例来说,若目标参考对象关联有100条语料,通过计算,指定关键词的词向量与目标参考对象关联的语料A之间的向量距离为10,与语料B之间的向量距离为20,…,在此基础上,可对指定关键词与100条语料之间的向量距离执行求和、求均值、求中值等计算,以产生指定关键词与目标参考对象之间的向量距离。在该示例性方案中,向量距离越小,适配度越大,向量距离越大,适配度越小。
这样,通过计算目标参考对象对应的各个车属性关键词与目标参考对象之间的适配度,可从目标参考对象对应的车属性关键词中挑选出最优秀的车属性关键词,从而仅将挑选出的车属性关键词关联至目标无语料对象,这可有效提高为无语料对象确定出的车属性关键词的准确性。
据此,本实施例中,可为各个无语料对象选择出合适的参考对象,还可以参考对象对应的车属性关键词作为参考,为无语料对象确定出合适的车属性关键词。
需要说明的是,上述实施例所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤100至步骤106的执行主体可以为设备A;又比如,步骤101和102的执行主体可以为设备A,步骤103的执行主体可以为设备B;等等。另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。
图3为本申请另一示例性实施例提供的一种计算设备的结构示意图。如图3所示,该计算设备包括:存储器30、处理器31。
处理器31,与存储器30耦合,用于执行存储器30中的计算机程序,以用于:
响应于车属性标注指令,确定多个待标注对象;
获取语料数据;
从语料数据中抽取车属性关键词;
分别确定多个待标注对象中已被语料数据覆盖的至少一个有语料对象各自对应的车属性关键词;
从至少一个有语料对象中,为多个待标注对象中未被语料数据覆盖的至少一个无语料对象选择参考对象;
基于至少一个无语料对象各自对应的参考对象关联的车辆属性关键词,确定至少一个无语料对象各自对应的车属性关键词;
按照至少一个待标注对象各自对应的车属性关键词,对至少一个待标注对象进行车属性标注。
在一可选实施例中,处理器31在获取语料数据过程中,用于:
获取原始语料;
对原始语料进行扩增,以获得扩增后语料;
将扩增后语料混合至通用语料中,以产生语料数据。
在一可选实施例中,处理器31在从语料数据中抽取车属性关键词过程中,用于:
抽取语料数据中包含的常见词;
对常见词进行词过滤,以获得车属性关键词。
在一可选实施例中,处理器31在对常见词进行词过滤,以获得车属性关键词过程中,用于:
从常见词中选取未出现在原始语料中的待过滤词;
从待过滤词中剔除与车辆领域无关的无关词;
将常见词中出现在原始语料中的词和待过滤词经过过滤后剩余的词,作为车属性关键词。
在一可选实施例中,处理器31在分别确定多个待标注对象中已被语料数据覆盖的至少一个有语料对象各自对应的车属性关键词过程中,用于:
基于目标关键词,遍历原始语料,以确定与目标关键词匹配的至少一条目标语料;
将目标关键词分别关联至至少一条目标语料所对应的有语料对象下;
其中,目标关键词为车属性关键词中的任意一个。
在一可选实施例中,处理器31在分别确定多个待标注对象中已被语料数据覆盖的至少一个有语料对象各自对应的车属性关键词过程中,用于:
从原始语料中,确定与目标有语料对象对应的至少一条目标语料;
从车属性关键词中,查找与至少一条目标语料匹配的目标关键词;
将目标关键词关联至目标有语料对象下;
其中,目标有语料对象为至少一个有语料对象中的任意一个。
在一可选实施例中,确定目标关键词与目标语料匹配的条件,可以包括:目标语料中包含目标关键词;或者,目标语料中包含与目标关键词存在扩增关系的其它车属性关键词。
在一可选实施例中,处理器31在分别确定多个待标注对象中已被语料数据覆盖的至少一个有语料对象各自对应的车属性关键词过程中,用于:
构建目标关键词对应的目标词向量;
分别计算目标词向量与原始语料中每条语料之间的向量距离;
从原始语料中,选择符合向量距离要求的至少一条目标语料;
将目标关键词分别关联至至少一条目标语料所对应的有语料对象下;
其中,目标关键词为车属性关键词中的任意一个。
在一可选实施例中,处理器31在从至少一个有语料对象中,为多个待标注对象中未被语料数据覆盖的至少一个无语料对象选择参考对象过程中,用于:
获取目标无语料对象的车辆配置参数;
基于车辆配置参数,从至少一个有语料对象中选择与目标无语料对象的相似度符合预设要求的目标对象,作为目标无语料对象对应的参考对象;
其中,目标无语料对象为至少一个无语料对象中的任意一个。
在一可选实施例中,处理器31在基于至少一个无语料对象各自对应的参考对象关联的车辆属性关键词,确定至少一个无语料对象各自对应的车属性关键词过程中,用于:
若目标无语料对象与其目标参考对象之间的相似度高于指定标准,则将目标参考对象关联的车属性关键词,全部关联至目标无语料对象;
若目标无语料对象与其目标参考对象之间的相似度低于指定标准,则从目标参考对象关联的车属性关键词中,选择与目标参考对象之间的适配度符合指定条件的目标关键词,关联至目标无语料对象;
其中,目标参考对象为目标无语料对象对应的参考对象中的任意一个。
在一可选实施例中,处理器31还用于:
在目标参考对象下,计算包含指定关键词的语料的数量在目标参考对象关联的语料的总数量中的占比,以表征指定关键词与目标参考对象之间的适配度;或者
在目标参考对象下,计算指定关键词的词向量与目标参考对象关联的各条语料之间的向量距离,以表征指定关键词与目标参考对象之间的适配度;
其中,指定关键词为目标参考对象关联的车属性关键词中的任意一个。
在一可选实施例中,待标注对象包括车型、车系或品牌。
进一步,如图3所示,该计算设备还包括:通信组件32、电源组件34等其它组件。图3中仅示意性给出部分组件,并不意味着计算设备只包括图3所示组件。
值得说明的是,上述关于计算设备各实施例中的技术细节,可参考前述的方法实施例中的相关描述,为节省篇幅,在此不再赘述,但这不应造成本申请保护范围的损失。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,计算机程序被执行时能够实现上述方法实施例中可由计算设备执行的各步骤。
上述图3中的存储器,用于存储计算机程序,并可被配置为存储其它各种数据以支持在计算平台上的操作。这些数据的示例包括用于在计算平台上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
上述图3中的通信组件,被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如WiFi,2G、3G、4G/LTE、5G等移动通信网络,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
上述图3中的电源组件,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (14)
1.一种车属性标注方法,其特征在于,包括:
响应于车属性标注指令,确定多个待标注对象;
获取语料数据,所述语料数据中的每条语料标注有所覆盖的有语料对象;
从所述语料数据中抽取车属性关键词;
分别确定所述多个待标注对象中已被所述语料数据覆盖的至少一个有语料对象各自对应的车属性关键词;
从所述至少一个有语料对象中,为所述多个待标注对象中未被所述语料数据覆盖的至少一个无语料对象选择参考对象;
基于所述至少一个无语料对象各自对应的参考对象关联的车辆属性关键词,确定所述至少一个无语料对象各自对应的车属性关键词;
按照所述至少一个待标注对象各自对应的车属性关键词,对所述至少一个待标注对象进行车属性标注。
2.根据权利要求1所述的方法,其特征在于,所述获取语料数据,包括:
获取原始语料;
对所述原始语料进行扩增,以获得扩增后语料;
将所述扩增后语料混合至通用语料中,以产生所述语料数据。
3.根据权利要求2所述的方法,其特征在于,所述从所述语料数据中抽取车属性关键词,包括:
抽取所述语料数据中包含的常见词;
对所述常见词进行词过滤,以获得车属性关键词。
4.根据权利要求3所述的方法,其特征在于,所述对所述常见词进行词过滤,以获得车属性关键词,包括:
从所述常见词中选取未出现在所述原始语料中的待过滤词;
从所述待过滤词中剔除与车辆领域无关的无关词;
将所述常见词中出现在所述原始语料中的词和所述待过滤词经过过滤后剩余的词,作为所述车属性关键词。
5.根据权利要求2所述的方法,其特征在于,所述分别确定所述多个待标注对象中已被所述语料数据覆盖的至少一个有语料对象各自对应的车属性关键词,包括:
基于目标关键词,遍历所述原始语料,以确定与所述目标关键词匹配的至少一条目标语料;
将所述目标关键词分别关联至所述至少一条目标语料所对应的有语料对象下;
其中,所述目标关键词为所述车属性关键词中的任意一个。
6.根据权利要求2所述的方法,其特征在于,所述分别确定所述多个待标注对象中已被所述语料数据覆盖的至少一个有语料对象各自对应的车属性关键词,包括:
从所述原始语料中,确定与目标有语料对象对应的至少一条目标语料;
从所述车属性关键词中,查找与所述至少一条目标语料匹配的目标关键词;
将所述目标关键词关联至所述目标有语料对象下;
其中,所述目标有语料对象为所述至少一个有语料对象中的任意一个,所述目标关键词为所述车属性关键词中的任意一个。
7.根据权利要求5或6所述的方法,其特征在于,确定目标语料与目标关键词匹配的条件,包括:
目标语料中包含所述目标关键词;或者,
目标语料中包含与所述目标关键词存在扩增关系的其它车属性关键词。
8.根据权利要求2所述的方法,其特征在于,所述分别确定所述多个待标注对象中已被所述语料数据覆盖的至少一个有语料对象各自对应的车属性关键词,包括:
构建目标关键词对应的目标词向量;
分别计算所述目标词向量与所述原始语料中每条语料之间的向量距离;
从所述原始语料中,选择符合向量距离要求的至少一条目标语料;
将所述目标关键词分别关联至所述至少一条目标语料所对应的有语料对象下;
其中,所述目标关键词为所述车属性关键词中的任意一个。
9.根据权利要求1所述的方法,其特征在于,所述从所述至少一个有语料对象中,为所述多个待标注对象中未被所述语料数据覆盖的至少一个无语料对象选择参考对象,包括:
获取目标无语料对象的车辆配置参数;
基于所述车辆配置参数,从所述至少一个有语料对象中选择与所述目标无语料对象的相似度符合预设要求的目标对象,作为所述目标无语料对象对应的参考对象;
其中,所述目标无语料对象为所述至少一个无语料对象中的任意一个。
10.根据权利要求9所述的方法,其特征在于,所述基于所述至少一个无语料对象各自对应的参考对象关联的车辆属性关键词,确定所述至少一个无语料对象各自对应的车属性关键词,包括:
若目标无语料对象与其目标参考对象之间的相似度高于指定标准,则将所述目标参考对象关联的车属性关键词,全部关联至所述目标无语料对象;
若所述目标无语料对象与其目标参考对象之间的相似度低于所述指定标准,则从所述目标参考对象关联的车属性关键词中,选择与所述目标参考对象之间的适配度符合指定条件的目标关键词,关联至所述目标无语料对象;
其中,所述目标参考对象为所述目标无语料对象对应的参考对象中的任意一个。
11.根据权利要求10所述的方法,其特征在于,还包括:
在所述目标参考对象下,计算包含指定关键词的语料的数量在所述目标参考对象关联的语料的总数量中的占比,以表征所述指定关键词与所述目标参考对象之间的适配度;或者
在所述目标参考对象下,计算所述指定关键词的词向量与所述目标参考对象关联的各条语料之间的向量距离,以表征所述指定关键词与所述目标参考对象之间的适配度;
其中,所述指定关键词为所述目标参考对象关联的车属性关键词中的任意一个。
12.根据权利要求1所述的方法,其特征在于,所述待标注对象包括车型、车系或品牌。
13.一种计算设备,其特征在于,包括存储器和处理器;
所述存储器用于存储一条或多条计算机指令;
所述处理器与所述存储器耦合,用于执行所述一条或多条计算机指令,以用于:
响应于车属性标注指令,确定多个待标注对象;
获取语料数据,所述语料数据中的每条语料标注有所覆盖的有语料对象;
从所述语料数据中抽取车属性关键词;
分别确定所述多个待标注对象中已被所述语料数据覆盖的至少一个有语料对象各自对应的车属性关键词;
从所述至少一个有语料对象中,为所述多个待标注对象中未被所述语料数据覆盖的至少一个无语料对象选择参考对象;
基于所述至少一个无语料对象各自对应的参考对象关联的车辆属性关键词,确定所述至少一个无语料对象各自对应的车属性关键词;
按照所述至少一个待标注对象各自对应的车属性关键词,对所述至少一个待标注对象进行车属性标注。
14.一种存储计算机指令的计算机可读存储介质,其特征在于,当所述计算机指令被一个或多个处理器执行时,致使所述一个或多个处理器执行权利要求1-12任一项所述的车属性标注方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111523094.7A CN114372446B (zh) | 2021-12-13 | 2021-12-13 | 一种车属性标注方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111523094.7A CN114372446B (zh) | 2021-12-13 | 2021-12-13 | 一种车属性标注方法、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114372446A CN114372446A (zh) | 2022-04-19 |
CN114372446B true CN114372446B (zh) | 2023-02-17 |
Family
ID=81140875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111523094.7A Active CN114372446B (zh) | 2021-12-13 | 2021-12-13 | 一种车属性标注方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114372446B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079445A (zh) * | 2019-12-27 | 2020-04-28 | 南京三百云信息科技有限公司 | 基于语义模型的训练方法、装置以及电子设备 |
CN111209363A (zh) * | 2019-12-25 | 2020-05-29 | 华为技术有限公司 | 语料数据处理方法、装置、服务器和存储介质 |
CN111488450A (zh) * | 2020-04-08 | 2020-08-04 | 北京字节跳动网络技术有限公司 | 一种用于生成关键词库的方法、装置和电子设备 |
CN112487165A (zh) * | 2020-12-02 | 2021-03-12 | 税友软件集团股份有限公司 | 一种基于关键词的问答方法、装置及介质 |
WO2021121198A1 (zh) * | 2020-09-08 | 2021-06-24 | 平安科技(深圳)有限公司 | 基于语义相似度的实体关系抽取方法、装置、设备及介质 |
CN113408287A (zh) * | 2021-06-23 | 2021-09-17 | 北京达佳互联信息技术有限公司 | 实体识别方法、装置、电子设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106970988A (zh) * | 2017-03-30 | 2017-07-21 | 联想(北京)有限公司 | 数据处理方法、装置及电子设备 |
CN111859092A (zh) * | 2020-07-29 | 2020-10-30 | 苏州思必驰信息科技有限公司 | 文本语料扩增方法、装置、电子设备及存储介质 |
CN112131890A (zh) * | 2020-09-15 | 2020-12-25 | 北京慧辰资道资讯股份有限公司 | 一种会话意图智能识别模型的构建方法、装置及设备 |
-
2021
- 2021-12-13 CN CN202111523094.7A patent/CN114372446B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111209363A (zh) * | 2019-12-25 | 2020-05-29 | 华为技术有限公司 | 语料数据处理方法、装置、服务器和存储介质 |
CN111079445A (zh) * | 2019-12-27 | 2020-04-28 | 南京三百云信息科技有限公司 | 基于语义模型的训练方法、装置以及电子设备 |
CN111488450A (zh) * | 2020-04-08 | 2020-08-04 | 北京字节跳动网络技术有限公司 | 一种用于生成关键词库的方法、装置和电子设备 |
WO2021121198A1 (zh) * | 2020-09-08 | 2021-06-24 | 平安科技(深圳)有限公司 | 基于语义相似度的实体关系抽取方法、装置、设备及介质 |
CN112487165A (zh) * | 2020-12-02 | 2021-03-12 | 税友软件集团股份有限公司 | 一种基于关键词的问答方法、装置及介质 |
CN113408287A (zh) * | 2021-06-23 | 2021-09-17 | 北京达佳互联信息技术有限公司 | 实体识别方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
自然语言空间信息标注及识别;郭丹;《中国优秀硕士学位论文全文数据库》;20200615;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114372446A (zh) | 2022-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109582799B (zh) | 知识样本数据集的确定方法、装置及电子设备 | |
CN110020913A (zh) | 产品推荐方法、设备及存储介质 | |
CN110443552B (zh) | 一种产品主数据信息自动传输的方法及装置 | |
RU2614933C2 (ru) | Способ и устройство для поиска информации на электронной коммерческой платформе | |
CN110046168A (zh) | 一种增量数据一致性实现方法及装置 | |
CN111008321A (zh) | 基于逻辑回归推荐方法、装置、计算设备、可读存储介质 | |
TW201939395A (zh) | 一種內容推薦方法、裝置、電子設備及系統 | |
CN110716965B (zh) | 一种块链式账本中的查询方法、装置及设备 | |
US20160203228A1 (en) | Filtering data objects | |
CN109472017B (zh) | 获得待生成裁判文书本院认为段相关信息的方法及装置 | |
US20160321268A1 (en) | Entity-driven logic for improved name-searching in mixed-entity lists | |
CN110119401A (zh) | 用户画像的处理方法、装置、服务器及存储介质 | |
CN108509458A (zh) | 一种业务对象识别方法及装置 | |
CN107291770A (zh) | 一种分布式系统中海量数据的查询方法及装置 | |
CN107632973A (zh) | 资产的录入方法和装置 | |
CN114372446B (zh) | 一种车属性标注方法、设备及存储介质 | |
CN110347887B (zh) | 获取业务场景时序数据的方法及装置 | |
CN110543478B (zh) | 公共层宽表建设方法、装置及服务器 | |
US20160196518A1 (en) | Intelligent Business Support System | |
CN112668723A (zh) | 一种机器学习方法及系统 | |
CN104573132A (zh) | 歌曲查找方法及装置 | |
US20080082516A1 (en) | System for and method of searching distributed data base, and information management device | |
CN108388610A (zh) | 数据etl处理方法及装置 | |
CN111221967A (zh) | 一种基于区块链架构的语言数据分类存储系统 | |
CN108268545A (zh) | 一种分级的用户标签库的创建的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220804 Address after: Room 119, 1st floor, 101, floors 1-7, building 105, yard a, Jiuxianqiao North Road, Chaoyang District, Beijing 100015 Applicant after: Beijing love car technology Co.,Ltd. Address before: Room 301, 3 / F, College Park, Dongsheng science and Technology Park, Zhongguancun, No.A, Xueqing Road, Haidian District, Beijing 100080 Applicant before: BEIJING 58 INFORMATION TECHNOLOGY Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |