CN105930432A - 序列标注工具的训练方法和装置 - Google Patents

序列标注工具的训练方法和装置 Download PDF

Info

Publication number
CN105930432A
CN105930432A CN201610245354.1A CN201610245354A CN105930432A CN 105930432 A CN105930432 A CN 105930432A CN 201610245354 A CN201610245354 A CN 201610245354A CN 105930432 A CN105930432 A CN 105930432A
Authority
CN
China
Prior art keywords
sequence
sequence labelling
instrument
labelling instrument
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610245354.1A
Other languages
English (en)
Other versions
CN105930432B (zh
Inventor
方晓敏
吴泽衡
石磊
周坤胜
詹金波
王凡
何径舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610245354.1A priority Critical patent/CN105930432B/zh
Publication of CN105930432A publication Critical patent/CN105930432A/zh
Application granted granted Critical
Publication of CN105930432B publication Critical patent/CN105930432B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提出一种序列标注工具的训练方法和装置。其中,该训练方法包括:获取用户的历史行为数据,其中,历史行为数据包括用户对服务提供商向所述用户提供的信息页面的反馈行为;以及根据历史行为数据对序列标注工具进行训练。本发明实施例的训练方法提高了序列标注工具提供服务的准确性,实现了对序列标注工具的及时更新,提升了用户使用体验。

Description

序列标注工具的训练方法和装置
技术领域
本发明涉及搜索引擎技术领域,尤其涉及一种序列标注工具的训练方法的装置。
背景技术
序列标注工具被广泛应用于自然语言处理,例如分词、词性标注、命名实体识别等工具中,搜索引擎又依赖于自然语言处理的工具,搜索引擎在从大量网页中检索出用户所输入的搜索信息对应的文档时,搜索引擎需要先对用户输入的查询搜索信息以及数据库中的文档进行分词,而分词需要用到序列标注工具,分词结果的准确性会在很大程度上影响搜索引擎搜索到的文档的准确性,因此,用于分词、词性标注、命名实体识别等的序列标注工具对搜索引擎的搜索结果存在至关重要的影响。
目前,现有的序列标注工具主要有隐马尔科夫模型(HMM),最大熵隐马尔科夫模型(MEMM)以及条件随机场模型(CRF),在训练这些序列标注工具时,需要收集大量的已标注好的语料,然后用这些语料来训练序列标注工具,然而人工标注这些语料需要花费大量的人力和物力。
此外,通过人工标注的语料对序列标注工具进行训练,往往不能及时地更新序列标注工具,例如对于分词而言,如果出现新的词汇,往往需要人工重新进行标注,然后重新训练序列标注工具后才能继续使用。
此外,不同的搜索引擎对序列标注工具的需求也许是不同的,例如对于分词而言,有些搜索引擎希望分词结果的粒度大一些,有些搜索引擎希望分词结果的粒度小一些,然而序列标注工具的分词粒度完全由用于训练序列标注工具的人工标注的语料所决定,因此不能根据不同的需求做出相应调整。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种序列标注工具的训练方法,该训练方法提高了序列标注工具提供服务的准确性,实现了对序列标注工具的及时更新,提升了用户使用体验。
本发明的第二个目的在于提出一种序列标注工具的训练装置。
为达上述目的,本发明第一方面实施例提出了一种序列标注工具的训练方法,包括:获取用户的历史行为数据,其中,所述历史行为数据包括用户对服务提供商向所述用户提供的信息页面的反馈行为;以及根据所述历史行为数据对序列标注工具进行训练。
本发明实施例的序列标注工具的训练方法,通过用户的历史行为数据不断的对序列标注工具进行优化,逐渐提高序列标注工具提供服务的准确性,使得训练标注工具和服务提供商提供服务之间不再仅仅是被依赖和依赖关系而是相互依赖的关系,不仅序列标注工具服务准确性的提升能够帮助服务提供商提供服务的服务质量的提升,而且服务提供商提供服务的服务质量的提升也能帮助序列标注工具服务准确性的提升,从而实现了对序列标注工具的及时更新,提升了用户使用体验。
为达上述目的,本发明第二方面实施例提出了一种序列标注工具的训练装置,包括:第一获取模块,用于获取用户的历史行为数据,其中,所述历史行为数据包括用户对服务提供商向所述用户提供的信息页面的反馈行为;以及第一训练模块,用于根据所述历史行为数据对序列标注工具进行训练。
本发明实施例的序列标注工具的训练装置,通过用户的历史行为数据不断的对序列标注工具进行优化,逐渐提高序列标注工具提供服务的准确性,使得训练标注工具和服务提供商提供服务之间不再仅仅是被依赖和依赖关系而是相互依赖的关系,不仅序列标注工具服务准确性的提升能够帮助服务提供商提供服务的服务质量的提升,而且服务提供商提供服务的服务质量的提升也能帮助序列标注工具服务准确性的提升,从而实现了对序列标注工具的及时更新,提升了用户使用体验。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一个实施例的序列标注工具的训练方法的流程图;
图2是本发明一个具体实施例的序列标注工具的训练方法的流程图;
图3是本发明中单搜索引擎指导序列标注工具的示意图;
图4是本发明中多搜索引擎指导序列标注工具的示意图;
图5是本发明一个实施例的序列标注工具的训练装置的结构示意图;以及
图6是本发明一个具体实施例的序列标注工具的训练装置的结构示意图
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
图1是本发明一个实施例的序列标注工具的训练方法的流程图。
如图1所示,序列标注工具的训练方法包括:
S101,获取用户的历史行为数据,其中,历史行为数据包括用户对服务提供商向用户提供的信息页面的反馈行为。
其中,服务提供商向用户提供的服务包括搜索服务、文本处理服务、推荐服务、语音识别服务等,而提供这些服务的搜索引擎、文本处理服务器、推荐服务器或者是语音识别服务器均依赖于序列标注工具,通过序列标注工具为这些服务器提供例如分词,词性标注、语音识别等服务。
应当理解的是,序列标注工具还可以接收其它依赖于序列标注工具提供服务的产品提供的反馈进行优化训练,而提供给产品反馈的外部可以是真实的用户,也可以是该产品的训练数据集。
在初始时,训练序列标注工具所使用额语料比较少,因此上述服务器在利用训练标注工具为用户提供服务时,提供服务并不是十分精准。为此,本发明中在序列标注工具为上述服务器提供服务时,上述服务器也为序列标注工具提供用户的反馈,帮助对序列标注工具进行优化。
具体地,在服务提供商为用户提供服务时,上述服务器将经过序列标注工具处理后的信息添加至信息页面中提供给用户,例如,用户在使用搜索引擎进行搜索时,搜索引擎将搜索结果页面返回给用户查看,或者在用户使用语音识别服务器进行语音识别时,语音识别服务器将识别后的文本内容添加至信息页面中返回给用户查看。进而,服务器获取用户针对该页面信息的反馈行为,例如,用户对搜索引擎返回的搜索结果的点击操作等,将用户对页面信息的反馈行为,这些反馈行为即是用户的历史行为数据。
S102,根据历史行为数据对序列标注工具进行训练。
具体地,根据用户针对页面信息的反馈行为可以对序列标注工具进行进一步的训练,以对序列标注工具进行优化。也就是说,随着不断地迭代,序列标注工具从服务器获取到大量的用户历史行为数据,根据历史行为数据对序列标注工具进行优化,渐渐提高序列标注工具的分词、词性标注、语音识别等功能的准确性。
应当理解的是,上述通过服务器向序列标注工具提供用户的反馈行为的方式仅仅是示例性的,序列标注工具还可以从服务器的训练集中获取一个训练样本,对训练样本进行处理以预测一个答案,进而从训练样本中获得标准答案,通过比对预测的答案和标准答案进一步对序列标注工具进行训练,从而实现了对序列标注工具的优化。
本发明实施例的序列标注工具的训练方法,通过用户的历史行为数据不断的对序列标注工具进行优化,逐渐提高序列标注工具提供服务的准确性,使得训练标注工具和服务提供商提供服务之间不再仅仅是被依赖和依赖关系而是相互依赖的关系,不仅序列标注工具服务准确性的提升能够帮助服务提供商提供服务的服务质量的提升,而且服务提供商提供服务的服务质量的提升也能帮助序列标注工具服务准确性的提升,从而实现了对序列标注工具的及时更新,提升了用户使用体验。
图2是本发明一个具体实施例的序列标注工具的训练方法的流程图。
如图2所示,序列标注工具的训练方法包括:
S201,获取人工标注的语料,并根据人工标注的语料训练序列标注工具。
本发明中根据人工标注语料和服务提供商的反馈对序列标注工具进行训练。
具体地,获取少量的人工标注的语料,并根据人工标注的语料训练一个基本的序列标注工具。
应当理解的是,根据人工标注的语料可采用现有的方法实现,为了避免冗余,此处不再复赘。
S202,接收服务请求,其中,服务请求包括待标注信息。
具体地,用户向服务提供商的服务器发送服务请求,例如,用户向搜索引擎发送搜索请求,向推荐服务器发送推荐请求,向语音识别服务器发送语音识别请求等,服务请求中包括用户输入待标注信息。服务器接收到服务请求后,根据服务请求中的待标注信息生成需要标注的数据,并将需要标注的数据发送给序列标注工具,同时向序列标注工具发送分序列标注请求。
S203,通过序列标注工具对待标注信息进行处理,并将处理结果生成信息页面。
具体地,序列标注工具利用自身的标注模型,例如,隐马尔科夫模型,最大熵隐马尔科夫模型以及条件随机场模型等,对需要标注的数据进行处理,其中,处理的方式可以包括但不限于对数据进行切分、词性标注和语音识别等,进而序列标注工具将标注好的数据发送给服务提供商的服务器。服务提供商的服务器根据处理后的标注数据生成信息页面,并将信息页面提供给用户查看。
在本发明的一个实施例中,当对待标注信息进行分词时,通过序列标注工具对待标注信息进行处理具体包括:通过序列标注工具对待标注信息进行切分,并获取切分后的多组分词序列,其中,每个分词序列具有不同的优先级。具体地,在利用序列标注工具对待标注信息进行分词处理时,会获得多组分词序列,每个分词序列具有不同的优先级。例如,搜索引擎利用序列标注工具对用户输入的搜索信息“A”进行分词,得到分词处理后的分词序列“A1、A2、A3”,其中,分词序列的优先级为“A1”大于“A2”大于“A3”。
进而,搜索引擎根据不同的分词序列获取对应的搜索结果,将搜索结果展现在信息页面上以供用户浏览。例如,搜索引擎根据分词序列“A1、A2、A3”获得的搜索结果分别为“B1、B2、B3”,由于分词序列的优先级为“A1”大于“A2”大于“A3”,因此搜索结果在信息页面上的排序应该是“B1”在最前面,“B2”其次,而“B3”显示在比较靠后的位置。
S204,获取用户的历史行为数据,其中,历史行为数据包括用户对服务提供商向用户提供的信息页面的反馈行为。
其中,用户的反馈行为可包括用户对信息页面中信息的点击操作,例如,在搜索引擎在信息页面显示多个搜索结果后,用户点击了部分搜索结果,则搜索引擎记录用户点击的搜索结果,并将用户点击该搜索结果的操作记为用户的历史行为数据。
在本发明的一个实施例中,用户的历史行为数据可以是搜索引擎根据用户对搜索结果的操作实时获取的,也可以是从搜索引擎的日志中获取的,即从搜索引擎的历史日志中获取用户的历史行为数据。
搜索引擎在获取用户的历史行为数据后,将用户的历史行为数据发送给序列标注工具,以对序列标注工具的标注模型进行更新和改进。
S205,根据历史行为数据对序列标注工具进行训练。
在本发明的一个实施例中,获取用户对信息页面的反馈行为,并获取反馈行为的权重值,并根据反馈行为的权重值对多组分词序列的优先级进行调整。
例如,用户点击一个搜索结果,说明该搜索结果符合用户的需求,进而根据该点击操作的权重值调整多组分词序列排序。例如,当用户点击了搜索结果“B1”,该搜索结果“B1”对应的分词序列为“A1”,则说明对搜索信息“A”而言,分词序列“A1”的分词处理结果准确率较高,此时虽然对分词序列“A1、A2、A3”的排序不进行调整,但是可以进一步将分词序列“A1”的优先级提高。
当用户点击了搜索结果“B3”,该搜索结果“B3”对应的分词序列为“A3”,则说明对搜索信息“A”而言,分词序列“A3”的分词处理结果准确率较高,此时将分词序列“A3”的优先级提高,如果多个用户点击搜索结果“B3”时,当分词序列“A3”的优先级高于“A1”时,将分词序列的“A3”排序调整至分词序列“A1”的前面,即此时分词序列的排序为“A3、A1、A2”,即分词序列的优先级为“A3”大于“A1”大于“A2”。
在本发明的一个实施例中,序列标注工具可以对应一个服务提供商,也可以同时对应多个服务提供商,例如,如图3所示,以搜索引擎为例,序列标注工具对应一个搜索引擎,搜索引擎对应外部的多个用户,或者如图4所示,序列标注工具对应多个搜索引擎,每个搜索引擎对应外部的多个用户。其中,序列标注工具中可包括一个标注模型,也可以包括多个标注模型,即多个搜索引擎均依赖一个标注模型进行序列标注,或者搜索引擎依赖不同的标注模型进行序列标注,而多个搜索引擎同时给一个标注模型提供反馈,或者多个搜索引擎分别给对应的一个标注模型提供反馈。由此,多个搜索引擎为一个标注模型提供反馈时,序列标注工具对自身进行更新和改进时受到了更加多元化的指导,使得序列标注工具适用于更多的应用场景。而多个搜索引擎分别为一个标注模型提供反馈时,序列标注工具根据每个搜索引擎提供的反馈对对应的标注模型进行更新和改进,进而使得序列标注工具针对不同的搜索引擎可以做相应的调整,满足不同搜索引擎对序列标注的粒度不同的需求,即有些搜索引擎需要序列标注的粒度大一些,而有些搜索引擎需要序列标注的粒度小一些,因此序列标注工具能够根据不同搜索引擎对不同的标注模型进行更新和改进。
应当理解的是,序列标注工具受多个服务提供商提供的用户反馈指导的方法和步骤与受一个服务提供商提供的用户反馈指导的方法和步骤相同,为了避免冗余,此处不再复赘。
本发明实施例的序列标注工具的训练方法,在初始时仅需要少量的人工标注的语料训练一个基本的序列标注工具,从而大大减少了人力和物力的开销,进而通过用户的历史行为数据不断的对序列标注工具进行优化,逐渐提高序列标注工具提供服务的准确性,从而实现了对序列标注工具的及时更新和调整。此外,针对不同服务提供商的需求,序列标注工具可以为不同的服务提供商提供不同粒度的序列标注服务,提高了序列标注工具进行序列标注的灵活性。
为了实现上述实施例,本发明还提出一种序列标注工具的训练装置。
图5是本发明一个实施例的序列标注工具的训练装置的结构示意图。
如图5所示,序列标注工具的训练装置包括:第一获取模块100和第一训练模块200。
其中,第一获取模块100用于获取用户的历史行为数据,其中,历史行为数据包括用户对服务提供商向用户提供的信息页面的反馈行为。
第一训练模块200用于根据历史行为数据对序列标注工具进行训练。
需要说明的是,前述对序列标注工具的训练方法的实施例的解释说明也适用于该实施例的序列标注工具的训练装置,其实现原理类似,此处不再赘述。
本发明实施例的序列标注工具的训练装置,通过用户的历史行为数据不断的对序列标注工具进行优化,逐渐提高序列标注工具提供服务的准确性,使得训练标注工具和服务提供商提供服务之间不再仅仅是被依赖和依赖关系而是相互依赖的关系,不仅序列标注工具服务准确性的提升能够帮助服务提供商提供服务的服务质量的提升,而且服务提供商提供服务的服务质量的提升也能帮助序列标注工具服务准确性的提升,从而实现了对序列标注工具的及时更新,提升了用户使用体验。
图6是本发明一个具体实施例的序列标注工具的训练装置的结构示意图。
如图6所示,序列标注工具的训练装置包括:第一获取模块100、第一训练模块200、第二获取模块300、第二训练模块400、接收模块500和处理模块600。
其中,第二获取模块300用于获取人工标注的语料。
第二训练模块400用于根据人工标注的语料训练序列标注工具。
接收模块500用于接收服务请求,其中,服务请求包括待标注信息。
处理模块600用于通过序列标注工具对待标注信息进行处理,并将处理结果生成信息页面。其中,对待标注信息进行处理包括但不限于对待标注信息进行分词、词性标注、语音识别中的一种或者多种。
在本发明的一个实施例中,当对待标注信息进行分词时,处理模块600还用于通过序列标注工具对待标注信息进行切分,并获取切分后的多组分词序列,其中,每个分词序列具有不同的优先级。
在本发明的一个实施例中,第一训练模块200具体用于获取用户对信息页面的反馈行为,并获取反馈行为的权重值,并根据反馈行为的权重值对多组分词序列的优先级进行调整。
需要说明的是,前述对序列标注工具的训练方法的实施例的解释说明也适用于该实施例的序列标注工具的训练装置,其实现原理类似,此处不再赘述。
本发明实施例的序列标注工具的训练装置,在初始时仅需要少量的人工标注的语料训练一个基本的序列标注工具,从而大大减少了人力和物力的开销,进而通过用户的历史行为数据不断的对序列标注工具进行优化,逐渐提高序列标注工具提供服务的准确性,从而实现了对序列标注工具的及时更新和调整。此外,针对不同服务提供商的需求,序列标注工具可以为不同的服务提供商提供不同粒度的序列标注服务,提高了序列标注工具进行序列标注的灵活性。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (12)

1.一种序列标注工具的训练方法,其特征在于,包括以下步骤:
获取用户的历史行为数据,其中,所述历史行为数据包括用户对服务提供商向所述用户提供的信息页面的反馈行为;以及
根据所述历史行为数据对序列标注工具进行训练。
2.如权利要求1所述的序列标注工具的训练方法,其特征在于,还包括:
获取人工标注的语料,并根据所述人工标注的语料训练所述序列标注工具。
3.如权利要求1或2所述的序列标注工具的训练方法,其特征在于,在获取用户的历史行为数据之前,还包括:
接收服务请求,其中,所述服务请求包括待标注信息;以及
通过所述序列标注工具对所述待标注信息进行处理,并将所述处理结果生成所述信息页面。
4.如权利要求3所述的序列标注工具的训练方法,其特征在于,对所述待标注信息进行处理包括对所述待标注信息进行分词、词性标注、语音识别中的一种或者多种。
5.如权利要求4所述的序列标注工具的训练方法,其特征在于,当对所述待标注信息进行分词时,通过所述序列标注工具对所述待标注信息进行处理具体包括:
通过所述序列标注工具对所述待标注信息进行切分,并获取切分后的多组分词序列,其中,每个分词序列具有不同的优先级。
6.如权利要求5所述的序列标注工具的训练方法,其特征在于,所述根据所述历史行为数据对序列标注工具进行训练具体包括:
获取所述用户对所述信息页面的反馈行为,并获取所述反馈行为的权重值;以及
根据所述反馈行为的权重值对所述多组分词序列的优先级进行调整。
7.一种序列标注工具的训练装置,其特征在于,包括:
第一获取模块,用于获取用户的历史行为数据,其中,所述历史行为数据包括用户对服务提供商向所述用户提供的信息页面的反馈行为;以及
第一训练模块,用于根据所述历史行为数据对序列标注工具进行训练。
8.如权利要求7所述的序列标注工具的训练装置,其特征在于,还包括:
第二获取模块,用于获取人工标注的语料;以及
第二训练模块,用于根据所述人工标注的语料训练所述序列标注工具。
9.如权利要求7或8所述的序列标注工具的训练装置,其特征在于,还包括:
接收模块,用于接收服务请求,其中,所述服务请求包括待标注信息;
处理模块,用于通过所述序列标注工具对所述待标注信息进行处理,并将所述处理结果生成所述信息页面。
10.如权利要求9所述的序列标注工具的训练装置,其特征在于,对所述待标注信息进行处理包括对所述待标注信息进行分词、词性标注、语音识别中的一种或者多种。
11.如权利要求10所述的序列标注工具的训练装置,其特征在于,当对所述待标注信息进行分词时,所述处理模块具体用于:
通过所述序列标注工具对所述待标注信息进行切分,并获取切分后的多组分词序列,其中,每个分词序列具有不同的优先级。
12.如权利要求11所述的序列标注工具的训练装置,其特征在于,所述第一训练模块具体用于:
获取所述用户对所述信息页面的反馈行为,并获取所述反馈行为的权重值,并根据所述反馈行为的权重值对所述多组分词序列的优先级进行调整。
CN201610245354.1A 2016-04-19 2016-04-19 序列标注工具的训练方法和装置 Active CN105930432B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610245354.1A CN105930432B (zh) 2016-04-19 2016-04-19 序列标注工具的训练方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610245354.1A CN105930432B (zh) 2016-04-19 2016-04-19 序列标注工具的训练方法和装置

Publications (2)

Publication Number Publication Date
CN105930432A true CN105930432A (zh) 2016-09-07
CN105930432B CN105930432B (zh) 2020-01-07

Family

ID=56839392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610245354.1A Active CN105930432B (zh) 2016-04-19 2016-04-19 序列标注工具的训练方法和装置

Country Status (1)

Country Link
CN (1) CN105930432B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875781A (zh) * 2018-05-07 2018-11-23 腾讯科技(深圳)有限公司 一种标签分类方法、装置、电子设备及存储介质
CN109062890A (zh) * 2018-06-27 2018-12-21 北京明略软件系统有限公司 一种标签切换方法和装置、计算机可读存储介质
CN109192194A (zh) * 2018-08-22 2019-01-11 北京百度网讯科技有限公司 语音数据标注方法、装置、计算机设备及存储介质
CN109616101A (zh) * 2019-02-12 2019-04-12 百度在线网络技术(北京)有限公司 声学模型训练方法、装置、计算机设备和可读存储介质
CN110134937A (zh) * 2018-02-09 2019-08-16 鼎复数据科技(北京)有限公司 一种基于点击日志的query词性标注方法及得到的系统
CN110209831A (zh) * 2018-02-13 2019-09-06 北京京东尚科信息技术有限公司 模型生成、语义识别的方法、系统、设备及存储介质
CN110737646A (zh) * 2019-10-21 2020-01-31 北京明略软件系统有限公司 数据标注方法、装置、设备及可读存储介质
CN110750523A (zh) * 2019-09-12 2020-02-04 苏宁云计算有限公司 数据标注方法、系统、计算机设备和存储介质
CN111339767A (zh) * 2020-02-21 2020-06-26 百度在线网络技术(北京)有限公司 对话源数据处理方法及装置、电子设备、计算机可读介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902755A (zh) * 2012-09-21 2013-01-30 北京百度网讯科技有限公司 一种对检索结果项的排序进行调整的方法及装置
CN102945232A (zh) * 2012-11-16 2013-02-27 沈阳雅译网络技术有限公司 面向统计机器翻译的训练语料质量评价及选取方法
CN103473221A (zh) * 2013-09-16 2013-12-25 于江德 汉语词法分析方法
CN105302903A (zh) * 2015-10-27 2016-02-03 广州神马移动信息科技有限公司 搜索方法、装置、系统以及搜索结果调序依据的确定方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902755A (zh) * 2012-09-21 2013-01-30 北京百度网讯科技有限公司 一种对检索结果项的排序进行调整的方法及装置
CN102945232A (zh) * 2012-11-16 2013-02-27 沈阳雅译网络技术有限公司 面向统计机器翻译的训练语料质量评价及选取方法
CN103473221A (zh) * 2013-09-16 2013-12-25 于江德 汉语词法分析方法
CN105302903A (zh) * 2015-10-27 2016-02-03 广州神马移动信息科技有限公司 搜索方法、装置、系统以及搜索结果调序依据的确定方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134937A (zh) * 2018-02-09 2019-08-16 鼎复数据科技(北京)有限公司 一种基于点击日志的query词性标注方法及得到的系统
CN110209831A (zh) * 2018-02-13 2019-09-06 北京京东尚科信息技术有限公司 模型生成、语义识别的方法、系统、设备及存储介质
CN108875781A (zh) * 2018-05-07 2018-11-23 腾讯科技(深圳)有限公司 一种标签分类方法、装置、电子设备及存储介质
CN108875781B (zh) * 2018-05-07 2022-08-19 腾讯科技(深圳)有限公司 一种标签分类方法、装置、电子设备及存储介质
CN109062890A (zh) * 2018-06-27 2018-12-21 北京明略软件系统有限公司 一种标签切换方法和装置、计算机可读存储介质
CN109192194A (zh) * 2018-08-22 2019-01-11 北京百度网讯科技有限公司 语音数据标注方法、装置、计算机设备及存储介质
CN109616101A (zh) * 2019-02-12 2019-04-12 百度在线网络技术(北京)有限公司 声学模型训练方法、装置、计算机设备和可读存储介质
CN110750523A (zh) * 2019-09-12 2020-02-04 苏宁云计算有限公司 数据标注方法、系统、计算机设备和存储介质
CN110737646A (zh) * 2019-10-21 2020-01-31 北京明略软件系统有限公司 数据标注方法、装置、设备及可读存储介质
CN111339767A (zh) * 2020-02-21 2020-06-26 百度在线网络技术(北京)有限公司 对话源数据处理方法及装置、电子设备、计算机可读介质

Also Published As

Publication number Publication date
CN105930432B (zh) 2020-01-07

Similar Documents

Publication Publication Date Title
CN105930432A (zh) 序列标注工具的训练方法和装置
US10795939B2 (en) Query method and apparatus
CN108009228B (zh) 一种内容标签的设置方法、装置及存储介质
CN103514299B (zh) 信息搜索方法和装置
CN106649825B (zh) 语音交互系统及其创建方法和装置
US9158836B2 (en) Iterative refinement of search results based on user feedback
US9582757B1 (en) Scalable curation system
CN104133878B (zh) 用户标签的生成方法和装置
CN109214386A (zh) 用于生成图像识别模型的方法和装置
CN110019742B (zh) 用于处理信息的方法和装置
CN102483745A (zh) 共同选择图像分类
US9767409B1 (en) Latent feature based tag routing
US20160063376A1 (en) Obtaining user traits
CN104111925B (zh) 项目推荐方法和装置
CN110023928A (zh) 预测搜索引擎排名信号值
CN110390110B (zh) 用于语义匹配的预训练生成句子向量的方法和装置
CN111914159A (zh) 一种信息推荐方法及终端
CN102609539B (zh) 一种搜索方法和系统
CN110413307A (zh) 代码功能的关联方法、装置及电子设备
EP3079083A1 (en) Providing app store search results
CN112417848A (zh) 语料生成方法、装置及计算机设备
US8165987B2 (en) System and method of machine-aided information extraction rule development
CN103020311B (zh) 一种用户检索词的处理方法及系统
CN111177331B (zh) 一种对话意图识别方法及装置
CN113204697A (zh) 一种搜索方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant