CN106909656B - 获取文本提取模型的方法及装置 - Google Patents

获取文本提取模型的方法及装置 Download PDF

Info

Publication number
CN106909656B
CN106909656B CN201710107787.5A CN201710107787A CN106909656B CN 106909656 B CN106909656 B CN 106909656B CN 201710107787 A CN201710107787 A CN 201710107787A CN 106909656 B CN106909656 B CN 106909656B
Authority
CN
China
Prior art keywords
text
training
feature extraction
corpus
extraction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710107787.5A
Other languages
English (en)
Other versions
CN106909656A (zh
Inventor
陈益
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710107787.5A priority Critical patent/CN106909656B/zh
Publication of CN106909656A publication Critical patent/CN106909656A/zh
Priority to PCT/CN2018/076605 priority patent/WO2018153316A1/zh
Application granted granted Critical
Publication of CN106909656B publication Critical patent/CN106909656B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种获取文本提取模型的方法及装置,属于机器学习技术领域。该方法包括:获取第一文本提取模型,第一文本提取模型根据人工标注的第一训练文本集合得到;如果第一文本提取模型的提取准确度低于预设阈值,获取第二训练文本集合,第二训练文本集合包括多个第一训练语料和通过第一文本提取模型从多个第一训练语料中提取的多个第一目标文本;根据第一训练文本集合和第二训练文本集合,获取第二文本提取模型。本发明通过第一文本提取模型获取第二训练文本集合,使得获取文本提取模型的过程趋于自动化,由于通过模型获取训练文本集合的效率远高于人工标注的效率,因此采用本发明的获取方法可以大大减少人力成本和时间成本。

Description

获取文本提取模型的方法及装置
技术领域
本发明涉及机器学习技术领域,特别涉及一种获取文本提取模型的方法及装置。
背景技术
机器学习技术是指计算机通过归纳文本或图片等数据改善性能的技术,广泛地应用于数据挖掘、计算机视觉、自然语言处理和机器人等方面。例如,为使聊天机器人能够理解自然语言的意义,从而与用户之间进行交互,通常利用机器学习技术获取文本提取模型,并将文本提取模型应用于聊天机器人,使得聊天机器人从与用户的语料中提取出表达用户需求的文本,并对应该文本进行应答。
一般地,在获取文本提取模型时,需要获取大量语料,并人工地从每个语料中标注出表达用户需求的文本,将大量语料和对应标注出的文本作为训练文本集合,进而对训练文本集合进行训练,从而基于标注出的文本在语料中的上下文等特征得到文本提取模型。其中,人工标注出的文本一般与聊天机器人所提供的服务的相关,例如,聊天机器人可提供票务服务,某个语料为“我要购买火车票”,则人工标注的文本为“火车票”。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
训练文本集合完全由人工标注的方式得到,由于获取文本提取模型所需的语料数据量庞大、人工标注的效率低,导致文本提取模型的训练过程会消耗大量人力成本和时间成本。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种获取文本提取模型的方法及装置。所述技术方案如下:
一方面,提供了一种获取文本提取模型的方法,所述方法包括:
获取第一文本提取模型,所述第一文本提取模型根据人工标注的第一训练文本集合得到;
如果所述第一文本提取模型的提取准确度低于预设阈值,获取第二训练文本集合,所述第二训练文本集合包括多个第一训练语料和通过所述第一文本提取模型从所述多个第一训练语料中提取的多个第一目标文本;
根据所述第一训练文本集合和所述第二训练文本集合,获取第二文本提取模型。
另一方面,提供了一种获取文本提取模型的装置,所述装置包括:
模型获取模块,用于获取第一文本提取模型,所述第一文本提取模型根据人工标注的第一训练文本集合得到;
训练文本集合获取模块,用于如果所述第一文本提取模型的提取准确度低于预设阈值,获取第二训练文本集合,所述第二训练文本集合包括多个第一训练语料和通过所述第一文本提取模型从所述多个第一训练语料中提取的多个第一目标文本;
所述模型获取模块,用于根据所述第一训练文本集合和所述第二训练文本集合,获取第二文本提取模型。
本发明实施例通过获取第一文本提取模型,在第一文本提取模型的提取准确度低于预设阈值时,获取第二训练文本集合,该第二训练文本集合包括多个第一训练语料和通过第一文本提取模型从多个第一训练语料中提取的多个第一目标文本,从而通过已获取的第一文本提取模型得到第二训练文本集合,而无需人工标注,进一步地,根据第一训练文本集合和第二训练文本集合,获取第二文本提取模型,使得获取文本提取模型的过程趋于自动化,由于通过模型获取训练文本集合的效率远高于人工标注的效率,因此采用本发明的获取方法可以大大减少人力成本和时间成本。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种获取文本提取模型的实施环境示意图;
图2是本发明实施例提供的一种获取文本提取模型的方法流程图;
图3是本发明实施例提供的一种获取训练文本的流程图;
图4是本发明实施例提供的一种获取迭代模型的流程图;
图5是本发明实施例提供的一种获取文本提取模型的装置框图;
图6是本发明实施例提供的一种获取文本提取模型的装置框图;
图7是本发明实施例提供的一种获取文本提取模型的装置700的框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
图1是本发明实施例提供的一种获取文本提取模型的实施环境示意图。参见图1,该实施环境中包括:
至少一个服务器101,至少一个聊天机器人102,至少一个终端103(如,移动终端和台式电脑)。其中,服务器101用于获取第一文本提取模型,如果第一文本提取模型的提取准确度低于预设阈值,则获取第二训练文本集合,根据已获取的训练文本集合获取第二文本提取模型,将获取的文本提取模型应用于聊天机器人102或终端103。该聊天机器人102用于根据服务器101的控制获取或更新文本提取模型,并基于服务器101的控制为用户提供各种服务,如,聊天服务。终端103上安装有服务器101所提供的智能聊天应用,并根据服务器101的控制获取或更新文本提取模型。
另外,该服务器101还可以配置至少一个数据库,如,聊天数据库、用户数据库的用户认证数据库等等。该聊天数据库用于存储用户与聊天机器人(或者智能聊天应用)之间的对话语料,该对话语料可以标识有本次对话的时间戳,或者本次对话的服务记录等数据;用户数据库用于存储用户行为数据,如用户发表的日志和评论,用户的点赞行为和评分行为等;该用户认证数据库用于存储用户的用户名和用户密码。
图2是本发明实施例提供的一种获取文本提取模型的方法流程图。参见图2,该方法可以应用于任一设备,且该设备至少具有处理器和存储器,可以通过处理器处理存储器中的训练样本集合,得到文本提取模型。该方法具体包括:
201、服务器获取第一文本提取模型,第一文本提取模型根据人工标注的第一训练文本集合得到。
第一训练文本集合用于生成文本提取模型,该第一训练文本集合包括多个训练语料和人工对多个训练语料标注的正确文本,一个训练语料和从中标注出的正确文本构成一对训练文本。其中,本发明实施例对训练语料的形式不做限定。例如,该训练语料可以是单句形式,或者对话形式。而且,从一个训练语料中标注出的正确文本可以是一个或多个,一般与应用该文本提取模型的聊天机器人(或智能聊天应用)所提供的服务相关,例如,训练语料为“怎么去杭州”,标注出的正确文本可以为“杭州”;训练语料为“我要买到天津的机票”,标注出的正确文本可以为“天津”和“机票”。
该步骤中,服务器可以从自身的数据库或网络获取多个训练语料,并获取人工从多个训练语料中标注出的正确文本,从而获取到第一训练文本集合,进而,服务器对第一训练文本集合进行训练,也即是,提取每对训练文本的特征(如,上下文特征),根据提取的特征确定初始提取模型的各个参数的取值,得到已知参数的第一文本提取模型。其中,该初始提取模型不限于CRF(Conditional Random Field algorithm,条件随机场)模型或HMM(Hidden Markov Model,隐马尔可夫模型)。
事实上,人工也可能从某些训练语料中不能标注出文本,这些训练语料如“怎么了”、“为什么”,该情况下,本发明实施例对处理这些训练语料的方式不做限定,例如,直接丢弃该训练语料,不对它进行标注;又例如,人工对不能标注出文本的训练语料统一添加默认标签,该默认标签用于标记不能标注出文本的训练语料,默认标签如“无”。进一步地,为了方便后续人工标注的过程,提高人工标注的效率,服务器可以将被丢弃的训练语料或者被添加了默认标签的训练语料存储为待筛选参考语料;后续在获取到初始训练语料之后,服务器可以筛选掉与待筛选参考语料相同的初始训练语料,得到筛选后的训练语料。
需要说明的是,在训练过程之前,还可以将初始提取模型的各个参数进行初始化,而在训练过程中,还可使用随机梯度下降和前向后向传播方法等来优化文本提取模型中的各个参数,以尽可能地减少文本提取模型的误差。
另外需要说明的是,本发明实施例为了减少人工标注的成本,相较于现有技术中获取文本提取模型所需的训练文本的数量,该第一训练文本集合中的训练文本的数量会更少,如,现有技术所需的训练文本的数量为X,本发明实施例所需的训练文本的数量可以为50%*X。
202、如果第一文本提取模型的提取准确度低于预设阈值,服务器获取第二训练文本集合,第二训练文本集合包括多个第一训练语料和通过第一文本提取模型从多个第一训练语料中提取的多个第一目标文本。
其中,由于通过第一文本提取模型所提取的文本可能是正确的,也可能是错误的,而为了保证根据该第二训练文本集合得到的文本提取模型的提取准确度更高,本发明实施例所中的第一目标文本是指应该从第一训练语料中提取出的正确文本。该步骤中,服务器确定第一文本提取模型的提取准确度,并判断该提取准确度是否低于预设阈值,如果是,则获取第二训练文本集合,否则,确定该第一文本提取模型可使用。本发明实施例对预设阈值不做限定。该预设阈值如80%。事实上,即使该第一文本提取模型的提取准确度不低于预设阈值,为了进一步提高第一文本提取模型的准确度,服务器也可以继续获取第二训练文本集合,该情况下,服务器既可以获取第一训练语料后,直接获取第一文本提取模型所提取出的文本作为第一目标文本,也可以参照以下获取第二训练文本集合的具体过程,以人工确认的方式进行获取。
在确定提取准确度时,本发明实施例对具体的确定方法不做限定。例如,服务器可以采用以下步骤(1)-(3)进行确定:
(1)、服务器获取测试文本集合,测试文本集合包括多个测试语料和人工从多个测试语料中标注出的多个正确文本。
该测试文本集合的获取过程与第一训练文本集合的获取过程同理,但该测试文本集合用于测试第一文本提取模型的提取准确度。
(2)、对于多个测试语料中的每个测试语料,服务器通过第一文本提取模型从测试语料中提取出第二文本。
该步骤(2)中,服务器将每个测试语料输入第一文本提取模型,并将第一文本提取模型对应该测试语料输出的文本作为第二文本。
(3)、服务器将与任一正确文本相同的第二文本和多个正确文本的数量比例确定为第一文本提取模型的提取准确度。
该步骤(3)中,服务器可以确定多个正确文本的数量A(也等价于多个测试语料的数量),并确定每个测试语料对应提取的第二文本与该测试语料对应标注出的正确文本是否相同,如果相同,则进行计数,否则,忽略不计;进而,服务器可以确定与任一正确文本相同的第二文本的数量B,并将B与A的比例确定为第一文本提取模型的提取准确度。
该步骤202中,服务器获取第二训练文本集合的过程可以具体为:如果第一文本提取模型的提取准确度低于预设阈值,服务器获取多个第一训练语料;对于多个第一训练语料中的每个第一训练语料,服务器通过第一文本提取模型从第一训练语料中提取出第一文本;如果第一文本正确,将第一训练语料和第一文本作为第二训练文本集合中的一对训练文本;如果第一文本错误,将第一训练语料和人工修正的文本作为第二训练文本集合中的一对训练文本。
以上具体过程参见图3所示的获取训练文本的流程图,该具体过程中,服务器可以将每个第一训练语料输入第一文本提取模型,并获取该训练语料对应输出的文本作为第一文本,进而,可以获取人工对该第一文本添加的判断信息,该判断信息用于指示第一文本是否正确,如果获取的判断信息指示第一文本正确,服务器可以直接将第一训练语料和第一文本作为第二训练文本集合中的一对训练文本;如果获取的判断信息指示第一文本错误,服务器可以获取判断信息中携带的人工修正的文本,并将第一训练语料和人工修正的文本作为第二训练文本集合中的一对文本。
事实上,为了提高获取文本提取模型的效率,在判断第一文本是否正确时,人工可以不必对每个第一文本进行操作,而是直接对错误的第一文本进行修正,使得服务器获取人工修正的文本和对应的第一训练语料,并直接获取剩余未操作的第一文本和对应的第一训练语料即可。
需要说明的是,本发明实施例对获取第一训练语料的方式不做限定。例如,服务器可以从网络或自身的数据库进行获取,如,为了更深入地了解用户需求,该数据库可以为用户数据库,或者,为使训练语料更贴近文本提取模型的实际的应用环境,从而提高文本提取模型在应用时对用户的语料命中率,该数据库可以为聊天数据库等。以从聊天数据库中获取第一训练语料为例,服务器可以采用以下至少两种获取方式:
获取方式1、如果第一文本提取模型的提取准确度低于预设阈值,服务器从聊天数据库中获取预设时段内的对话语料,将预设时段内的对话预料作为多个第一训练语料。
为了有针对性地获取第一训练语料,服务器可以获取预设时段内的对话语料。本发明实施例对预设时段不做具体限定。例如,为使第一训练语料更贴近当前用户的表达方式,使得获取的文本提取模型在应用时的提取准确度更高,该预设时段可以为最近一个月。又例如,为使第一训练语料更吻合聊天机器人所提供的不同服务,从而提高文本提取模型的提取准确度,该预设时段可以与提供服务的时段匹配,且每个时段单独获取对话语料并对应文本提取模型,该服务时段的划分如:售票服务的时段为白天,票务咨询服务的时段为夜间。
该获取方式1中,服务器可以根据预设时段,在聊天数据库中查询与预设时段具有相同时间戳的对话语料,并将查询到的多个对话语料作为多个第一训练语料。
获取方式2、如果第一文本提取模型的提取准确度低于预设阈值,服务器从聊天数据库中筛选出对话成功的对话语料,将对话成功的对话预料作为多个第一训练语料,对话成功的对话语料是指聊天机器人成功为用户提供服务的对话语料。
为使第一训练语料具有更强的参考性,可以获取对话成功的对话语料作为第一训练语料。其中,对话成功的对话语料的确定方式可以有多种。例如,服务器至少可以采用以下三种确定方式进行确定:
判断方式1、当任一对话语料中存在对话成功的关键词时,服务器将该对话语料确定为对话成功的对话语料。
其中,本发明实施例对对话成功的关键词不做限定。例如,考虑到对话成功时,用户通常会表达谢意,因此该对话成功的关键词可以为:好的、谢谢。又例如,在对话成功时聊天机器人的答复也可能包括一些对话成功的关键词,如:没问题,不用谢。
判断方式2,当任一对话语料中存在对话失败的关键词时,服务器筛选掉该对话语料,并确定剩余的对话语料为对话成功的对话语料。
其中,本发明实施例对对话失败的关键词不做限定。例如,考虑到对话失败时用户可能会提醒聊天机器人理解错误,则该对话失败的关键词可以为:你错了,不是这个意思。又例如,对话失败时聊天机器人的答复也可能包括一些对话成功的关键词,如:别介意,没有理解您的意思,请再说一遍。
判断方式3,当任一对话预料存在对应的服务记录时,服务器将该对话语料确定为对话成功的对话语料。
考虑到当某一对话语料存在对应的服务记录时,说明通过本次对话成功地为用户提供了一次服务,因此,可以将对应存在服务记录的对话语料作为对话成功的对话语料。
203、服务器根据第一训练文本集合和第二训练文本集合,获取第二文本提取模型。
基于第一训练文本集合和第二训练文本集合,服务器可以将这两个训练文本集合重新进行训练,得到第二文本提取模型。
事实上,如果当前的文本提取模型的提取准确度低于预设阈值,服务器还可以继续获取训练文本集合,并基于已获取的各个训练文本集合进行训练,直到训练得到的文本提取模型的提取准确度不低于预设阈值,该训练文本集合包括多个第二训练语料和通过当前的文本提取模型从多个第二训练语料中提取的多个第二目标文本。
例如,图4是本发明实施例提供的一种迭代模型的流程图,参见图4,服务器可以根据步骤202中确定提取准确度的方法来确定第二文本提取模型的提取准确度,如果确定的提取准确度不低于预设阈值,则确定该第二文本提取模型可使用,如果确定的提取准确度低于预设阈值,则继续获取训练文本集合,该训练文本集合的具体获取过程与第二训练文本集合的具体获取过程同理,并基于已获取的第一训练文本集合、第二训练文本集合和该训练文本集合进行训练,从而得到一个准确度更高的文本提取模型,并再次确认该文本提取模型的提取准确度,如果该文本提取模型的提取准确度低于预设阈值,则继续获取训练文本集合,直到通过迭代的方式得到的文本提取模型的提取准确度不低于预设阈值为止。
需要说明的是,在服务器获取到最终的文本提取模型之后,既可以暂存该文本提取模型、等待应用该文本提取模型的指令,也可以直接应用将该文本提取模型,如,将该文本提取模型应用于聊天机器人,或者,将该文本提取模型更新至用户所在终端上的智能聊天应用。
本发明实施例通过获取第一文本提取模型,在第一文本提取模型的提取准确度低于预设阈值时,获取第二训练文本集合,该第二训练文本集合包括多个第一训练语料和通过第一文本提取模型从多个第一训练语料中提取的多个第一目标文本,从而通过已获取的第一文本提取模型得到第二训练文本集合,而无需人工标注,进一步地,根据第一训练文本集合和第二训练文本集合,获取第二文本提取模型,使得获取文本提取模型的过程趋于自动化,由于通过模型获取训练文本集合的效率远高于人工标注的效率,因此采用本发明的获取方法可以大大减少人力成本和时间成本。
另外,提供了获取第二训练文本集合的具体方法,通过获取第一训练语料,并通过第一文本提取模型从第一训练语料中提取出第一文本,如果第一文本正确,则直接将第一训练语料和第一文本作为第二训练文本集合中的一对训练文本,如果第一文本错误,则将人工修正的文本和第一训练语料获取为第二训练文本集合中的一对训练文本,由于第二训练文本集合通过第一文本提取模型得到、且人工进行确认,因此在保证了第二训练文本集合的获取效率的同时,也保证了第二训练文本集合的准确性。
另外,提供了至少两种获取第一训练语料的具体方法,如,为了保证对话语料的有效性,可以从聊天数据库中获取预设时段内的对话语料,或者,为使第一训练语料具有更强的参考性,可以获取聊天数据库中对话成功的对话语料。
另外,提供了确定提取准确度的具体方法,通过获取测试文本集合,通过第一文本提取模型从测试语料中提取出第二文本,并确定与任一正确文本相同的第二文本的数量,和多个正确文本的数量,将前者与后者的比例确定为第一文本提取模型的提取准确度,从而提供了测试第一文本提取模型是否达标的具体方法。
另外,在获取第二文本提取模型之后,还可以确定当前的文本提取模型的提取准确度,如果当前的文本提取模型的提取准确度低于预设阈值,则继续获取训练文本集合,并基于以获取的各个训练文本集合进行训练,直到训练得到的文本提取模型的提取度不低于预设阈值,从而通过迭代的方式不断优化已获取的文本提取模型,以最终得到一个提取准确度较高的文本提取模型。
图5是本发明实施例提供的一种获取文本提取模型的装置框图。参见图5,该装置具体包括:
模型获取模块501,用于获取第一文本提取模型,第一文本提取模型根据人工标注的第一训练文本集合得到;
训练文本集合获取模块502,用于如果第一文本提取模型的提取准确度低于预设阈值,获取第二训练文本集合,第二训练文本集合包括多个第一训练语料和通过第一文本提取模型从多个第一训练语料中提取的多个第一目标文本;
模型获取模块501,还用于根据第一训练文本集合和第二训练文本集合,获取第二文本提取模型。
本发明实施例通过获取第一文本提取模型,在第一文本提取模型的提取准确度低于预设阈值时,获取第二训练文本集合,该第二训练文本集合包括多个第一训练语料和通过第一文本提取模型从多个第一训练语料中提取的多个第一目标文本,从而通过已获取的第一文本提取模型得到第二训练文本集合,而无需人工标注,进一步地,根据第一训练文本集合和第二训练文本集合,获取第二文本提取模型,使得获取文本提取模型的过程趋于自动化,由于通过模型获取训练文本集合的效率远高于人工标注的效率,因此采用本发明的获取方法可以大大减少人力成本和时间成本。
在一种可能实现方式中,该训练文本集合获取模块502用于:
如果第一文本提取模型的提取准确度低于预设阈值,获取多个第一训练语料;对于多个第一训练语料中的每个第一训练语料,通过第一文本提取模型从第一训练语料中提取出第一文本;如果第一文本正确,将第一训练语料和第一文本作为第二训练文本集合中的一对训练文本;如果第一文本错误,将第一训练语料和人工修正的文本作为第二训练文本集合中的一对训练文本。
在一种可能实现方式中,该训练文本集合获取模块502用于:
如果第一文本提取模型的提取准确度低于预设阈值,从聊天数据库中获取预设时段内的对话语料,将预设时段内的对话预料作为多个第一训练语料,聊天数据库用于存储用户与聊天机器人之间的对话语料。
在一种可能实现方式中,该训练文本集合获取模块502用于:
如果第一文本提取模型的提取准确度低于预设阈值,从聊天数据库中筛选出对话成功的对话语料,将对话成功的对话预料作为多个第一训练语料,聊天数据库用于存储用户与聊天机器人之间的对话语料,对话成功的对话语料是指聊天机器人成功为用户提供服务的对话语料。
在一种可能实现方式中,基于图5的装置组成,参见图6,该装置还包括:
测试文本集合获取模块503,用于获取测试文本集合,测试文本集合包括多个测试语料和人工从多个测试语料中标注出的多个正确文本;
提取模块504,用于对于多个测试语料中的每个测试语料,通过第一文本提取模型从测试语料中提取出第二文本;
确定模块505,用于将与任一正确文本相同的第二文本和多个正确文本的数量比例确定为第一文本提取模型的提取准确度。
在一种可能实现方式中,该训练文本集合获取模块502,还用于如果当前的文本提取模型的提取准确度低于预设阈值,继续获取训练文本集合;
该模型获取模块501,还用于基于已获取的各个训练文本集合进行训练,直到训练得到的文本提取模型的提取准确度不低于预设阈值,训练文本集合包括多个第二训练语料和通过当前的文本提取模型从多个第二训练语料中提取的多个第二目标文本。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的获取文本提取模型的装置在获取文本提取模型时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的获取文本提取模型的装置与获取文本提取模型的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图7是本发明实施例提供的一种获取文本提取模型的装置700的框图。例如,装置700可以被提供为一服务器。参照图7,装置700包括处理组件722,其进一步包括一个或多个处理器,以及由存储器732所代表的存储器资源,用于存储可由处理部件722的执行的指令,例如应用程序。存储器732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件722被配置为执行指令,以执行上述图2所示实施例中获取文本提取模型的方法。
装置700还可以包括一个电源组件726被配置为执行装置700的电源管理,一个有线或无线网络接口750被配置为将装置700连接到网络,和一个输入输出(I/O)接口758。装置700可以操作基于存储在存储器732的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种获取文本提取模型的方法,其特征在于,所述方法包括:
获取第一文本提取模型,所述第一文本提取模型根据人工标注的第一训练文本集合得到,所述第一训练文本集合包括多个训练语料和人工对所述多个训练语料标注的正确文本,一个训练语料和从中标注出的一个或多个正确文本构成一对训练文本;
如果所述第一文本提取模型的提取准确度低于预设阈值,获取多个第一训练语料;
对于所述多个第一训练语料中的每个第一训练语料,通过所述第一文本提取模型从所述第一训练语料中提取出第一文本;
如果所述第一文本正确,将所述第一训练语料和所述第一文本作为第二训练文本集合中的一对训练文本;如果所述第一文本错误,将所述第一训练语料和人工修正的文本作为所述第二训练文本集合中的一对训练文本;
根据所述第一训练文本集合和所述第二训练文本集合,获取第二文本提取模型。
2.根据权利要求1所述的方法,所述如果所述第一文本提取模型的提取准确度低于预设阈值,获取多个第一训练语料包括:
如果所述第一文本提取模型的提取准确度低于所述预设阈值,从聊天数据库中获取预设时段内的对话语料,将所述预设时段内的对话预料作为所述多个第一训练语料,所述聊天数据库用于存储用户与聊天机器人之间的对话语料。
3.根据权利要求1所述的方法,所述如果所述第一文本提取模型的提取准确度低于预设阈值,获取多个第一训练语料包括:
如果所述第一文本提取模型的提取准确度低于所述预设阈值,从聊天数据库中筛选出对话成功的对话语料,将所述对话成功的对话预料作为所述多个第一训练语料,所述聊天数据库用于存储用户与聊天机器人之间的对话语料,所述对话成功的对话语料是指所述聊天机器人成功为所述用户提供服务的对话语料。
4.根据权利要求1所述的方法,其特征在于,所述获取多个第一训练语料之前,所述方法还包括:
获取测试文本集合,所述测试文本集合包括多个测试语料和人工从所述多个测试语料中标注出的多个正确文本;
对于所述多个测试语料中的每个测试语料,通过所述第一文本提取模型从所述测试语料中提取出第二文本;
将与任一正确文本相同的第二文本和所述多个正确文本的数量比例确定为所述第一文本提取模型的提取准确度。
5.根据权利要求1所述的方法,其特征在于,所述根据所述第一训练文本集合和所述第二训练文本集合,获取第二文本提取模型之后,所述方法还包括:
如果当前的文本提取模型的提取准确度低于所述预设阈值,继续获取训练文本集合,并基于已获取的各个训练文本集合进行训练,直到训练得到的文本提取模型的提取准确度不低于所述预设阈值,所述训练文本集合包括多个第二训练语料和通过所述当前的文本提取模型从所述多个第二训练语料中提取的多个第二目标文本。
6.一种获取文本提取模型的装置,其特征在于,所述装置包括:
模型获取模块,用于获取第一文本提取模型,所述第一文本提取模型根据人工标注的第一训练文本集合得到,所述第一训练文本集合包括多个训练语料和人工对所述多个训练语料标注的正确文本,一个训练语料和从中标注出的一个或多个正确文本构成一对训练文本;
训练文本集合获取模块,用于如果所述第一文本提取模型的提取准确度低于预设阈值,获取多个第一训练语料;对于所述多个第一训练语料中的每个第一训练语料,通过所述第一文本提取模型从所述第一训练语料中提取出第一文本;如果所述第一文本正确,将所述第一训练语料和所述第一文本作为第二训练文本集合中的一对训练文本;如果所述第一文本错误,将所述第一训练语料和人工修正的文本作为所述第二训练文本集合中的一对训练文本;
所述模型获取模块,还用于根据所述第一训练文本集合和所述第二训练文本集合,获取第二文本提取模型。
7.根据权利要求6所述的装置,所述训练文本集合获取模块用于:
如果所述第一文本提取模型的提取准确度低于所述预设阈值,从聊天数据库中获取预设时段内的对话语料,将所述预设时段内的对话预料作为所述多个第一训练语料,所述聊天数据库用于存储用户与聊天机器人之间的对话语料。
8.根据权利要求6所述的装置,所述训练文本集合获取模块用于:
如果所述第一文本提取模型的提取准确度低于所述预设阈值,从聊天数据库中筛选出对话成功的对话语料,将所述对话成功的对话预料作为所述多个第一训练语料,所述聊天数据库用于存储用户与聊天机器人之间的对话语料,所述对话成功的对话语料是指所述聊天机器人成功为所述用户提供服务的对话语料。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
测试文本集合获取模块,用于获取测试文本集合,所述测试文本集合包括多个测试语料和人工从所述多个测试语料中标注出的多个正确文本;
提取模块,用于对于所述多个测试语料中的每个测试语料,通过所述第一文本提取模型从所述测试语料中提取出第二文本;
确定模块,用于将与任一正确文本相同的第二文本和所述多个正确文本的数量比例确定为所述第一文本提取模型的提取准确度。
10.根据权利要求6所述的装置,其特征在于,
所述训练文本集合获取模块,还用于如果当前的文本提取模型的提取准确度低于所述预设阈值,继续获取训练文本集合;
所述模型获取模块,还用于基于已获取的各个训练文本集合进行训练,直到训练得到的文本提取模型的提取准确度不低于所述预设阈值,所述训练文本集合包括多个第二训练语料和通过所述当前的文本提取模型从所述多个第二训练语料中提取的多个第二目标文本。
CN201710107787.5A 2017-02-27 2017-02-27 获取文本提取模型的方法及装置 Active CN106909656B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710107787.5A CN106909656B (zh) 2017-02-27 2017-02-27 获取文本提取模型的方法及装置
PCT/CN2018/076605 WO2018153316A1 (zh) 2017-02-27 2018-02-13 获取文本提取模型的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710107787.5A CN106909656B (zh) 2017-02-27 2017-02-27 获取文本提取模型的方法及装置

Publications (2)

Publication Number Publication Date
CN106909656A CN106909656A (zh) 2017-06-30
CN106909656B true CN106909656B (zh) 2019-03-08

Family

ID=59209337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710107787.5A Active CN106909656B (zh) 2017-02-27 2017-02-27 获取文本提取模型的方法及装置

Country Status (2)

Country Link
CN (1) CN106909656B (zh)
WO (1) WO2018153316A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909656B (zh) * 2017-02-27 2019-03-08 腾讯科技(深圳)有限公司 获取文本提取模型的方法及装置
CN110245338A (zh) * 2018-03-09 2019-09-17 北京国双科技有限公司 事实识别的校正方法及装置
CN110472198B (zh) * 2018-05-10 2023-01-24 腾讯科技(深圳)有限公司 一种关键词的确定方法、文本处理的方法及服务器
CN110263322B (zh) * 2019-05-06 2023-09-05 平安科技(深圳)有限公司 用于语音识别的音频语料筛选方法、装置及计算机设备
CN110347786B (zh) * 2019-06-11 2021-01-05 深圳追一科技有限公司 一种语义模型的调优方法及系统
CN110866100B (zh) * 2019-11-07 2022-08-23 北京声智科技有限公司 一种话术泛化方法、装置及电子设备
CN112632284A (zh) * 2020-12-30 2021-04-09 上海明略人工智能(集团)有限公司 用于未标注文本数据集的信息抽取方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593334A (zh) * 2012-08-15 2014-02-19 中国电信股份有限公司 一种用于判断文本情感程度的方法和系统
CN104408093A (zh) * 2014-11-14 2015-03-11 中国科学院计算技术研究所 一种新闻事件要素抽取方法与装置
CN106407357A (zh) * 2016-09-07 2017-02-15 深圳市中易科技有限责任公司 一种文本数据规则模型开发的工程方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8818793B1 (en) * 2002-12-24 2014-08-26 At&T Intellectual Property Ii, L.P. System and method of extracting clauses for spoken language understanding
US7610191B2 (en) * 2004-10-06 2009-10-27 Nuance Communications, Inc. Method for fast semi-automatic semantic annotation
CN101021838A (zh) * 2007-03-02 2007-08-22 华为技术有限公司 文本处理方法和系统
CN102236639B (zh) * 2010-04-28 2016-08-10 三星电子株式会社 更新语言模型的系统和方法
CN102033950A (zh) * 2010-12-23 2011-04-27 哈尔滨工业大学 电子产品命名实体自动识别系统的构建方法及识别方法
US9972311B2 (en) * 2014-05-07 2018-05-15 Microsoft Technology Licensing, Llc Language model optimization for in-domain application
CN104317894B (zh) * 2014-10-23 2018-12-21 北京百度网讯科技有限公司 样本标注的确定方法和装置
CN106445908B (zh) * 2015-08-07 2019-11-15 阿里巴巴集团控股有限公司 文本识别方法和装置
CN105956179B (zh) * 2016-05-30 2020-05-26 上海智臻智能网络科技股份有限公司 数据过滤方法及装置
CN106202177B (zh) * 2016-06-27 2017-12-15 腾讯科技(深圳)有限公司 一种文本分类方法及装置
CN106909656B (zh) * 2017-02-27 2019-03-08 腾讯科技(深圳)有限公司 获取文本提取模型的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593334A (zh) * 2012-08-15 2014-02-19 中国电信股份有限公司 一种用于判断文本情感程度的方法和系统
CN104408093A (zh) * 2014-11-14 2015-03-11 中国科学院计算技术研究所 一种新闻事件要素抽取方法与装置
CN106407357A (zh) * 2016-09-07 2017-02-15 深圳市中易科技有限责任公司 一种文本数据规则模型开发的工程方法

Also Published As

Publication number Publication date
WO2018153316A1 (zh) 2018-08-30
CN106909656A (zh) 2017-06-30

Similar Documents

Publication Publication Date Title
CN106909656B (zh) 获取文本提取模型的方法及装置
CN110020422B (zh) 特征词的确定方法、装置和服务器
US10956684B2 (en) Topic kernelization for real-time conversation data
US10621074B2 (en) Intelligent device selection for mobile application testing
CN112989035B (zh) 基于文本分类识别用户意图的方法、装置及存储介质
US20190278853A1 (en) Extracting Structure and Semantics from Tabular Data
US11256712B2 (en) Rapid design, development, and reuse of blockchain environment and smart contracts
US10891442B2 (en) Message tone evaluation between entities in an organization
US20170213139A1 (en) Processing data for use in a cognitive insights platform
CN112884569A (zh) 一种信用评估模型的训练方法、装置及设备
US11238363B2 (en) Entity classification based on machine learning techniques
CN110362826A (zh) 基于人工智能的期刊投稿方法、设备及可读存储介质
CN112466277A (zh) 韵律模型训练方法、装置、电子设备及存储介质
US11841892B2 (en) Generating test scenarios by detecting failure patterns and themes in customer experiences
CN113190154B (zh) 模型训练、词条分类方法、装置、设备、存储介质及程序
US11755831B2 (en) Detection of a topic
US20220043977A1 (en) Determining user complaints from unstructured text
CN113554062A (zh) 多分类模型的训练方法、设备和存储介质
CN113127312A (zh) 用于数据库性能测试的方法、装置、电子设备及存储介质
US10318937B2 (en) Generating a product model
CN116204562B (zh) 一种政策信息处理方法、装置、电子设备及存储介质
RU2713760C1 (ru) Способ и система выявления эмулируемой мобильной операционной системы с использованием методов машинного обучения
CN118155629A (zh) 语音识别处理方法、装置、电子设备及非易失性存储介质
CN113656534A (zh) 语料扩充方法、装置、设备和介质
CN117932036A (zh) 对话处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230710

Address after: 518057 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 floors

Patentee after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

Patentee after: TENCENT CLOUD COMPUTING (BEIJING) Co.,Ltd.

Address before: 518057 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 floors

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

TR01 Transfer of patent right