CN116628188A - 一种基于地产行业的录音文本标签体系构建方法及系统 - Google Patents

一种基于地产行业的录音文本标签体系构建方法及系统 Download PDF

Info

Publication number
CN116628188A
CN116628188A CN202211079079.2A CN202211079079A CN116628188A CN 116628188 A CN116628188 A CN 116628188A CN 202211079079 A CN202211079079 A CN 202211079079A CN 116628188 A CN116628188 A CN 116628188A
Authority
CN
China
Prior art keywords
label
text
corpus
level
word segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211079079.2A
Other languages
English (en)
Inventor
徐星晨
朱亮
薛健
朱高鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinmao Cloud Technology Service Beijing Co ltd
Original Assignee
Jinmao Cloud Technology Service Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinmao Cloud Technology Service Beijing Co ltd filed Critical Jinmao Cloud Technology Service Beijing Co ltd
Priority to CN202211079079.2A priority Critical patent/CN116628188A/zh
Publication of CN116628188A publication Critical patent/CN116628188A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/16Real estate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Tourism & Hospitality (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种基于地产行业的录音文本标签体系构建方法及系统,首先对项目现场的录音进行转录,生成第一转录文本集合,利用第一转录文本集合进行业务需求分析生成一级标签与一级标签体系,筛选第一转录文本集合,得到第二转录文本集合,对第二转录文本集合中的文本执行分词并计算每个分词的词频并排序,选取预设数量的高频词作为二级标签,根据二级标签与第二转录文本集合中文本的对应关系,得到二级标签与一级标签的第一映射关系,利用第一映射关系,将二级标签纳入一级标签体系中,生成二级标签体系。本发明实施例通过以上方法,有效降低体系构建对设计人员经验判断的依赖,能够满足拓展业务新场景、新知识的认知和归纳的需求。

Description

一种基于地产行业的录音文本标签体系构建方法及系统
技术领域
本发明实施例涉及大数据技术领域,具体涉及一种基于地产行业的录音文本标签体系构建方法及系统。
背景技术
目前在地产领域从录音文本中获取标签并建立体系的技术尚未成熟,多以业务数据产生的标签为主,不具备组织、管理、规划标签的类目体系方法,所以需要参照其他领域的标签体系进行构建,让用户可以根据可理解的分类方式快速查找数据、标签。
标签体系的建立离不开标签的设计,标签的种类根据的来源不同可以分为基础类、加工类与挖掘类三种。基础类可以由业务数据产生。加工类标签一般为统计指标,可根据业务数据计算获得。挖掘类标签包含有数据挖掘和文本挖掘,一般文本的挖掘类标签体系构建方案根据标签体系的拓展性可以分为两类:(1)人工根据文本内容和领域经验进行标签体系设计,文本数据的标签信息由业务人员进行标注;(2)根据业务产生的文本数据和业务需求进行标签体系设计,并参照领域经验构建关键词库与同义词林,结合词库与既定正则对业务文本进行词语抽取与词频统计,再将高频词纳入体系词库。以上两种挖掘类标签体系构建方案各有利弊,前者仅需设计出项目需要的标签体系即可投入使用成本最低,但标签的合理性依赖于设计人员的领域知识,标签的准确性受使用人员影响,在业务发展初期是较为实用的一种方案,随着业务的逐步发展,文本信息越来越多元化,该方案对文本数据的利用就会逐渐出现桎梏,仅能解决当前问题,不能给将来业务的创新场景提供帮助。
后者需要持续的成本投入,但有效降低了设计人员对标签体系的影响,并且面对多元化文本,该体系的词库具备一定的拓展能力,但体系优化程度取决于正则的丰富程度,不能给将来的业务触发使用灵感。
发明内容
为此,本发明实施例提供一种基于地产行业的录音文本标签体系构建方法及系统,用以解决现有技术中体系构建对设计人员经验判断过于依赖,无法满足拓展业务新场景、新知识的认知和归纳的需求。
为了实现上述目的,本发明实施例提供如下技术方案:
根据本发明实施例的第一方面,提供了一种基于地产行业的录音文本标签体系构建方法,其包括:
全面采集项目现场的对话录音;
对所述对话录音进行转录,生成第一转录文本集合;
利用所述第一转录文本集合进行业务需求分析生成一级标签,并构建一级标签体系;
利用所述一级标签对所述第一转录文本集合进行筛选,得到第二转录文本集合;
对所述第二转录文本集合中的文本执行分词并计算每个分词的词频;
按照词频排序,选取预设数量的高频词作为二级标签;
根据所述二级标签与所述第二转录文本集合中文本的对应关系,得到所述二级标签与所述一级标签的第一映射关系;
利用所述第一映射关系,将所述二级标签纳入所述一级标签体系中,生成二级标签体系。
进一步地,利用所述第一转录文本集合进行业务需求分析生成一级标签,并构建一级标签体系,包括:
以人、物、关系为基础框架,通过分析地产领域数据情况和业务需求,确定体系根节点的属性标签;
针对每个属性标签分别设置静态标签、动态标签与挖掘标签;
根据每个属性标签下的静态标签、动态标签与挖掘标签,利用所述第一转录文本集合进行业务需求分析,生成各自对应的一级标签并构建第一标签体系;
其中,所述属性标签包括:人标签、项目标签、前置标签。
进一步地,利用所述一级标签对所述第一转录文本集合进行筛选,得到第二转录文本集合,包括:
以句子为单位获取当前一级标签命中的录音文本数据;
对所述录音文本数据进行文本数据预处理,并构建语料库;
利用所述语料库中的语料提取新词;
利用通用词库已有词对提取出的新词进行过滤、筛选,生成可用新词;
利用所述可用新词对通用词库进行扩充;
基于扩充后的通用词库和预设第一分词模型对所述语料库中的语料执行第一分词,得到第一分词语料;
利用所述第一分词语料作为训练数据对所述第一分词模型进行训练,得到第二分词模型;
利用第二分词模型对所述语料库中的语料执行第二分词,得到第二分词语料;
利用每个一级标签对应的第二分词语料和录音文本数据分别得到第一句向量和第二句向量;
计算各个一级标签对应的所述第一句向量和所述第二句向量的余弦相似度;
判断所述余弦相似度是否达到第一阈值;
如果所述余弦相似度达到第一阈值,则将所述第二分词语料作为二级标签语料文本,并判断第二分词语料和录音文本数据中是否存在一级标签对应文本未进行句向量处理;
如果所述余弦相似度未达到第一阈值,则直接判断第二分词语料和录音文本数据中是否存在一级标签对应文本未进行句向量处理;
如果第二分词语料和录音文本数据中存在一级标签对应文本未进行句向量处理,则循环对下一未处理的一级标签对应文本进行句向量处理;
如果第二分词语料和录音文本数据中不存在一级标签对应文本未进行句向量处理,则利用当前得到的二级标签语料文本生成第二转录文本集合。
进一步地,利用所述语料库中的语料提取新词,还包括:
对所述语料库中的语料进行第三分词;
计算第三分词结果中的各个分词的左右信息熵H和互信息凝合度PMI;
判断所述左右信息熵H是否达到第二阈值,以及所述互信息凝合度PMI是否达到第三阈值;
如果所述左右信息熵H达到第二阈值且所述互信息凝合度PMI达到第三阈值,则将所述分词确定为新词;
如果所述左右信息熵H未达到第二阈值或所述互信息凝合度PMI未达到第三阈值,则将所述分词确定为非新词。
优选地,一种基于地产行业的录音文本标签体系构建方法还包括:
根据业务需求对所述第二转录文本集合进行分析,得到基础类标签、加工类标签,以及所述基础类标签、所述加工类标签与所述一级标签的第二映射关系;
利用所述第二映射关系,将所述基础类标签、所述加工类标签纳入所述二级标签体系中;
其中,基础类标签为基础业务属性标签,加工类标签为统计指标。
进一步地,分析所述第二标签的语义词,对所述语义词进行抽象加工;
根据所述抽象加工后的语义词生成三级标签,
根据所述三级标签与所述二级标签的对应关系,将所述三级标签纳入所述二级标签体系中,构建三级标签体系。
进一步地,在业务数据中按照预设时间段运行所述三级标签体系;
根据运行结果,计算各个挖掘类标签的覆盖率;
判断所述覆盖率是否达到第四阈值;
如果所述覆盖率未达到第四阈值,则确定所述挖掘类标签为冗余标签,将所述冗余标签删除;
如果所述覆盖率达到第四阈值,则确定所述挖掘类标签为非冗余标签,将所述非冗余标签保留;
其中,所述覆盖率为:运行结果中实际存在该标签的文本数占总文本数的比例。
根据本发明实施例的第二方面,提供了一种基于地产行业的录音文本标签体系构建系统,所述系统包括:
录音采集模块,用于全面采集项目现场的对话录音;
第一转录模块,用于对所述对话录音进行转录,生成第一转录文本集合;
一级标签体系构建模块,用于利用所述第一转录文本集合进行业务需求分析生成一级标签,并构建一级标签体系;
二级标签体系构建模块,用于执行以下步骤:
利用所述一级标签对所述第一转录文本集合进行筛选,得到第二转录文本集合;
对所述第二转录文本集合中的文本执行分词并计算每个分词的词频;
按照词频排序,选取预设数量的高频词作为二级标签;
根据所述二级标签与所述第二转录文本集合中文本的对应关系,得到所述二级标签与所述一级标签的第二映射关系;
利用所述第二映射关系,将所述二级标签纳入所述一级标签体系中,生成二级标签体系。
进一步地,所述系统还包括三级标签体系构建模块,用于执行以下步骤:
分析所述第二标签的语义词,对所述语义词进行抽象加工;
根据所述抽象加工后的语义词生成三级标签,
根据所述三级标签与所述二级标签的对应关系,将所述三级标签纳入所述二级标签体系中,构建三级标签体系。
进一步地,所述系统还包括凝练模块,用于执行以下步骤:
在业务数据中按照预设时间段运行所述三级标签体系;
根据运行结果,计算各个挖掘类标签的覆盖率;
判断所述覆盖率是否达到第四阈值;
如果所述覆盖率未达到第四阈值,则确定所述挖掘类标签为冗余标签,将所述冗余标签删除;
如果所述覆盖率达到第四阈值,则确定所述挖掘类标签为非冗余标签,将所述非冗余标签保留;
其中,所述覆盖率为:运行结果中实际存在该标签的文本数占总文本数的比例。
本发明实施例具有如下优点:
本发明实施例公开了一种基于地产行业的录音文本标签体系构建方法及系统,首先全面采集项目现场的对话录音,然后对所述对话录音进行转录,生成第一转录文本集合,利用所述第一转录文本集合进行业务需求分析生成一级标签,并构建一级标签体系,利用所述一级标签对所述第一转录文本集合进行筛选,得到第二转录文本集合,对所述第二转录文本集合中的文本执行分词并计算每个分词的词频,按照词频排序,选取预设数量的高频词作为二级标签,根据所述二级标签与所述第二转录文本集合中文本的对应关系,得到所述二级标签与所述一级标签的第一映射关系,利用所述第一映射关系,将所述二级标签纳入所述一级标签体系中,生成二级标签体系。这样,本发明实施例通过大数据的非监督学习方法,能够有效降低构建体系的过程中对设计人员的依赖,改进数据挖掘与自然语言处理技术,满足拓展业务新场景、新知识的认知和归纳的需求,通过标签抽象链路技术的创新,能够流程化构建地产行业对话录音文本标签体系并且能够适用于其他各类应用场景。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
图1为本发明实施例提供的一种基于地产行业的录音文本标签体系构建系统的逻辑结构示意图;
图2为本发明实施例提供的一种基于地产行业的录音文本标签体系构建方法的流程示意图;
图3为本发明实施例提供的一种基于地产行业的录音文本标签体系构建方法中一级标签体系构建的流程示意图;
图4为本发明实施例提供的一种基于地产行业的录音文本标签体系构建方法中得到第二转录文本集合的流程示意图;
图5为本发明实施例提供的一种基于地产行业的录音文本标签体系构建方法中利用语料库中的语料提取新词的流程示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
标签的种类根据的来源不同可以分为基础类、加工类与挖掘类三种,基础类可以由业务数据产生,加工类标签一般为统计指标,可根据业务数据计算获得,挖掘类标签包含有数据挖掘和文本挖掘,一般文本的挖掘类标签体系构建方案根据标签体系的拓展性可以分为两类:人工根据文本内容和领域经验进行标签体系设计,文本数据的标签信息由业务人员进行标注;根据业务产生的文本数据和业务需求进行标签体系设计,并参照领域经验构建关键词库与同义词林,结合词库与既定正则对业务文本进行词语抽取与词频统计,再将高频词纳入体系词库。
以上两种方案各有利弊,前者仅需设计出项目需要的标签体系即可投入使用成本最低,但标签的合理性依赖于设计人员的领域知识,标签的准确性受使用人员影响,在业务发展初期是较为实用的一种方案,随着业务的逐步发展,文本信息越来越多元化,该方案对文本数据的利用就会逐渐出现桎梏,仅能解决当前问题,不能给将来业务的创新场景提供帮助。
后者需要持续的成本投入,但有效降低了设计人员对标签体系的影响,并且面对多元化文本,该体系的词库具备一定的拓展能力,但体系优化程度取决于正则的丰富程度,不能给将来的业务触发使用灵感。
为了解决上述标签体系过于依赖设计人员经验判断,不具备组织、管理、规划标签类目体系的技术问题。
参考图1,本发明实施例公开了一种基于地产行业的录音文本标签体系构建系统,该系统包括:录音采集模块1、第一转录模块2、一级标签体系构建模块3。
本发明实施例公开了一种基于地产行业的录音文本标签体系构建系统,在收集到项目现场的录音后,首先对所述对话录音进行转录,生成第一转录文本集合,然后利用所述第一转录文本集合进行业务需求分析生成一级标签,并构建一级标签体系,利用所述一级标签对所述第一转录文本集合进行筛选,得到第二转录文本集合,对所述第二转录文本集合中的文本执行分词并计算每个分词的词频,按照词频排序,选取预设数量的高频词作为二级标签,根据所述二级标签与所述第二转录文本集合中文本的对应关系,得到所述二级标签与所述一级标签的第一映射关系,利用所述第一映射关系,将所述二级标签纳入所述一级标签体系中,生成二级标签体系。
优选地,参考图1,所述系统还包括二级标签体系构建模块4,用于执行以下步骤:利用所述一级标签对所述第一转录文本集合进行筛选,得到第二转录文本集合;对所述第二转录文本集合中的文本执行分词并计算每个分词的词频;按照词频排序,选取预设数量的高频词作为二级标签;根据所述二级标签与所述第二转录文本集合中文本的对应关系,得到所述二级标签与所述一级标签的第一映射关系;利用所述第一映射关系,将所述二级标签纳入所述一级标签体系中,生成二级标签体系。
优选地,参考图1,所述系统还包括三级标签体系构建模块5,用于执行以下步骤:分析所述第二标签的语义词,对所述语义词进行抽象加工;根据所述抽象加工后的语义词生成三级标签,根据所述三级标签与所述二级标签的对应关系,将所述三级标签纳入所述二级标签体系中,构建三级标签体系。
优选地,参考图1,所述系统还包括凝练模块6,用于执行以下步骤:在业务数据中按照预设时间段运行所述三级标签体系;根据运行结果,计算各个挖掘类标签的覆盖率;判断所述覆盖率是否达到第四阈值;如果所述覆盖率未达到第四阈值,则确定所述挖掘类标签为冗余标签,将所述冗余标签删除;如果所述覆盖率达到第四阈值,则确定所述挖掘类标签为非冗余标签,将所述非冗余标签保留;其中,所述覆盖率为:运行结果中实际存在该标签的文本数占总文本数的比例。
与上述公开的一种基于地产行业的录音文本标签体系构建系统相对应,本发明实施例还公开了一种基于地产行业的录音文本标签体系构建方法。以下结合上述描述的一种基于地产行业的录音文本标签体系构建系统详细介绍本发明实施例中公开的一种基于地产行业的录音文本标签体系构建方法。
参考图2,本发明公开了一种基于地产行业的录音文本标签体系构建方法,其包括:通过录音采集模块1全面采集项目现场的对话录音;使用第一转录模块2对所述对话录音进行转录,生成第一转录文本集合;使用一级标签体系构建模块3利用所述第一转录文本集合进行业务需求分析生成一级标签,并构建一级标签体系;使用二级标签体系构建模块4完成以下步骤:利用所述一级标签对所述第一转录文本集合进行筛选,得到第二转录文本集合;对所述第二转录文本集合中的文本执行分词并计算每个分词的词频;按照词频排序,选取预设数量的高频词作为二级标签;根据所述二级标签与所述第二转录文本集合中文本的对应关系,得到所述二级标签与所述一级标签的第一映射关系;利用所述第一映射关系,将所述二级标签纳入所述一级标签体系中,生成二级标签体系。
其中,需对第一转录模块的第一转录文本集合进行评估,评估标准包括:AB角色命中率:正确区分录音中说话人的概率;漏译文字率:录音转录过程中存在漏字的概率;句错率:录音转录错误的概率;BLEU评分:参照机器翻译BLEU评估标准来评估核心领域词正确转录的评分。
进一步地,参考图3,利用所述第一转录文本集合进行业务需求分析生成一级标签,并构建一级标签体系,包括:以人、物、关系为基础框架,通过分析地产领域数据情况和业务需求,确定体系根节点的属性标签;针对每个属性标签分别设置静态标签、动态标签与挖掘标签;根据每个属性标签下的静态标签、动态标签与挖掘标签,利用所述第一转录文本集合进行业务需求分析,生成各自对应的一级标签并构建第一标签体系;其中,所述属性标签包括:人标签、项目标签、前置标签。
进一步地,参考图4,利用所述一级标签对所述第一转录文本集合进行筛选,得到第二转录文本集合,包括:以句子为单位获取当前一级标签命中的录音文本数据;对所述录音文本数据进行文本数据预处理,并构建语料库;利用所述语料库中的语料提取新词;利用通用词库已有词对提取出的新词进行过滤、筛选出可用新词;利用所述可用新词对通用词库进行扩充;基于扩充后的通用词库和预设第一分词模型对所述语料库中的语料执行第一分词,得到第一分词语料;利用所述第一分词语料作为训练数据对所述第一分词模型进行训练,得到第二分词模型;利用第二分词模型对所述语料库中的语料执行第二分词,得到第二分词语料;利用每个一级标签对应的第二分词语料和录音文本数据分别得到第一句向量和第二句向量;计算各个一级标签对应的所述第一句向量和所述第二句向量的余弦相似度;判断所述余弦相似度是否达到第一阈值;如果所述余弦相似度达到第一阈值,则将所述第二分词语料作为二级标签语料文本,并判断第二分词语料和录音文本数据中是否存在一级标签对应文本未进行句向量处理;如果所述余弦相似度未达到第一阈值,则直接判断第二分词语料和录音文本数据中是否存在一级标签对应文本未进行句向量处理;如果第二分词语料和录音文本数据中存在一级标签对应文本未进行句向量处理,则循环对下一未处理的一级标签对应文本进行句向量处理;如果第二分词语料和录音文本数据中不存在一级标签对应文本未进行句向量处理,则利用当前得到的二级标签语料文本生成第二转录文本集合。
更进一步地,参考图5,利用所述语料库中的语料提取新词,包括:对所述语料库中的语料进行第三分词;计算第三分词结果中的各个分词的左右信息熵H和互信息凝合度PMI;所述左右信息熵H的计算公式如下:
H(X)=-∑x∈Xp(x)log2p(x)
其中,p(x)为所述文本T1’出现的概率,X为随机变量;所述互信息凝合度PMI的计算公式如下:
其中,x与y为变量;判断所述左右信息熵H是否达到第二阈值,以及所述互信息凝合度PMI是否达到第三阈值;如果所述左右信息熵H达到第二阈值且所述互信息凝合度PMI达到第三阈值,则将所述分词确定为新词;如果所述左右信息熵H未达到第二阈值或所述互信息凝合度PMI未达到第三阈值,则将所述分词确定为非新词。
优选地,根据业务需求对所述第二转录文本集合进行分析,得到基础类标签、加工类标签,以及所述基础类标签、所述加工类标签与所述一级标签的第二映射关系;利用所述第二映射关系,将所述基础类标签、所述加工类标签纳入所述二级标签体系中;其中,基础类标签为基础业务属性标签,加工类标签为统计指标。
进一步地,分析所述第二标签的语义词,对所述语义词进行抽象加工;根据所述抽象加工后的语义词生成三级标签,根据所述三级标签与所述二级标签的对应关系,将所述三级标签纳入所述二级标签体系中,构建三级标签体系。
进一步地,在业务数据中按照预设时间段运行所述三级标签体系;根据运行结果,计算各个挖掘类标签的覆盖率;判断所述覆盖率是否达到第四阈值;如果所述覆盖率未达到第四阈值,则确定所述挖掘类标签为冗余标签,将所述冗余标签删除;如果所述覆盖率达到第四阈值,则确定所述挖掘类标签为非冗余标签,将所述非冗余标签保留;其中,所述覆盖率为:运行结果中实际存在该标签的文本数占总文本数的比例。
本发明实施例通过大数据的非监督学习方法,能够有效降低构建体系的过程中对设计人员的依赖,改进数据挖掘与自然语言处理技术,满足拓展业务新场景、新知识的认知和归纳的需求,通过标签抽象链路技术的创新,能够流程化构建地产行业对话录音文本标签体系并且能够适用于其他各类应用场景。
在本发明实施例中,处理器可以是一种集成电路芯片,具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息,结合其硬件完成上述方法的步骤。
存储介质可以是存储器,例如可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
其中,非易失性存储器可以是只读存储器(Read-Only Memory,简称ROM)、可编程只读存储器(Programmable ROM,简称PROM)、可擦除可编程只读存储器(Erasable PROM,简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM,简称EEPROM)或闪存。
易失性存储器可以是随机存取存储器(Random Access Memory,简称RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,简称SRAM)、动态随机存取存储器(Dynamic RAM,简称DRAM)、同步动态随机存取存储器(Synchronous DRAM,简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM,简称ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,简称SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,简称DRRAM)。
本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时,可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (10)

1.一种基于地产行业的录音文本标签体系构建方法,其特征在于,所述方法包括:
全面采集项目现场的对话录音;
对所述对话录音进行转录,生成第一转录文本集合;
利用所述第一转录文本集合进行业务需求分析生成一级标签,并构建一级标签体系;
利用所述一级标签对所述第一转录文本集合进行筛选,得到第二转录文本集合;
对所述第二转录文本集合中的文本执行分词并计算每个分词的词频;
按照词频排序,选取预设数量的高频词作为二级标签;
根据所述二级标签与所述第二转录文本集合中文本的对应关系,得到所述二级标签与所述一级标签的第一映射关系;
利用所述第一映射关系,将所述二级标签纳入所述一级标签体系中,生成二级标签体系。
2.如权利要求1所述的一种基于地产行业的录音文本标签体系构建方法,其特征在于,利用所述第一转录文本集合进行业务需求分析生成一级标签,并构建一级标签体系,包括:
以人、物、关系为基础框架,通过分析地产领域数据情况和业务需求,确定体系根节点的属性标签;
针对每个属性标签分别设置静态标签、动态标签与挖掘标签;
根据每个属性标签下的静态标签、动态标签与挖掘标签,利用所述第一转录文本集合进行业务需求分析,生成各自对应的一级标签并构建第一标签体系;
其中,所述属性标签包括:人标签、项目标签、前置标签。
3.如权利要求1所述的一种基于地产行业的录音文本标签体系构建方法,其特征在于,利用所述一级标签对所述第一转录文本集合进行筛选,得到第二转录文本集合,包括:
以句子为单位获取当前一级标签命中的录音文本数据;
对所述录音文本数据进行文本数据预处理,并构建语料库;
利用所述语料库中的语料提取新词;
利用通用词库已有词对提取出的新词进行过滤、筛选,生成可用新词;
利用所述可用新词对通用词库进行扩充;
基于扩充后的通用词库和预设第一分词模型对所述语料库中的语料执行第一分词,得到第一分词语料;
利用所述第一分词语料作为训练数据对所述第一分词模型进行训练,得到第二分词模型;
利用第二分词模型对所述语料库中的语料执行第二分词,得到第二分词语料;
利用每个一级标签对应的第二分词语料和录音文本数据分别得到第一句向量和第二句向量;
计算各个一级标签对应的所述第一句向量和所述第二句向量的余弦相似度;
判断所述余弦相似度是否达到第一阈值;
如果所述余弦相似度达到第一阈值,则将所述第二分词语料作为二级标签语料文本,并判断第二分词语料和录音文本数据中是否存在一级标签对应文本未进行句向量处理;
如果所述余弦相似度未达到第一阈值,则直接判断第二分词语料和录音文本数据中是否存在一级标签对应文本未进行句向量处理;
如果第二分词语料和录音文本数据中存在一级标签对应文本未进行句向量处理,则循环对下一未处理的一级标签对应文本进行句向量处理;
如果第二分词语料和录音文本数据中不存在一级标签对应文本未进行句向量处理,则利用当前得到的二级标签语料文本生成第二转录文本集合。
4.如权利要求3所述的一种基于地产行业的录音文本标签体系构建方法,其特征在于,利用所述语料库中的语料提取新词,包括:
对所述语料库中的语料进行第三分词;
计算第三分词结果中的各个分词的左右信息熵H和互信息凝合度PMI;
判断所述左右信息熵H是否达到第二阈值,以及所述互信息凝合度PMI是否达到第三阈值;
如果所述左右信息熵H达到第二阈值且所述互信息凝合度PMI达到第三阈值,则将所述分词确定为新词;
如果所述左右信息熵H未达到第二阈值或所述互信息凝合度PMI未达到第三阈值,则将所述分词确定为非新词。
5.如权利要求3中所述的一种基于地产行业的录音文本标签体系构建方法,其特征在于,所述方法还包括:
根据业务需求对所述第二转录文本集合进行分析,得到基础类标签、加工类标签,以及所述基础类标签、所述加工类标签与所述一级标签的第二映射关系;
利用所述第二映射关系,将所述基础类标签、所述加工类标签纳入所述二级标签体系中;
其中,基础类标签为基础业务属性标签,加工类标签为统计指标。
6.如权利要求5所述的一种基于地产行业的录音文本标签体系构建方法,其特征在于,所述方法还包括:
分析所述第二标签的语义词,对所述语义词进行抽象加工;
根据抽象加工后的语义词生成三级标签,
根据所述三级标签与所述二级标签的对应关系,将所述三级标签纳入所述二级标签体系中,构建三级标签体系。
7.如权利要求6所述的一种基于地产行业的录音文本标签体系构建方法,其特征在于,所述方法还包括:
在业务数据中按照预设时间段运行所述三级标签体系;
根据运行结果,计算各个挖掘类标签的覆盖率;
判断所述覆盖率是否达到第四阈值;
如果所述覆盖率未达到第四阈值,则确定所述挖掘类标签为冗余标签,将所述冗余标签删除;
如果所述覆盖率达到第四阈值,则确定所述挖掘类标签为非冗余标签,将所述非冗余标签保留;
其中,所述覆盖率为:运行结果中实际存在该标签的文本数占总文本数的比例。
8.一种基于地产行业的录音文本标签体系构建系统,其特征在于,所述系统包括:
录音采集模块,用于全面采集项目现场的对话录音;
第一转录模块,用于对所述对话录音进行转录,生成第一转录文本集合;
一级标签体系构建模块,用于利用所述第一转录文本集合进行业务需求分析生成一级标签,并构建一级标签体系;
二级标签体系构建模块,用于执行以下步骤:
利用所述一级标签对所述第一转录文本集合进行筛选,得到第二转录文本集合;
对所述第二转录文本集合中的文本执行分词并计算每个分词的词频;
按照词频排序,选取预设数量的高频词作为二级标签;
根据所述二级标签与所述第二转录文本集合中文本的对应关系,得到所述二级标签与所述一级标签的第一映射关系;
利用所述第一映射关系,将所述二级标签纳入所述一级标签体系中,生成二级标签体系。
9.如权利要求8所述的一种基于地产行业的录音文本标签体系构建系统,其特征在于,所述系统还包括三级标签体系构建模块,用于执行以下步骤:
分析所述第二标签的语义词,对所述语义词进行抽象加工;
根据抽象加工后的语义词生成三级标签,
根据所述三级标签与所述二级标签的对应关系,将所述三级标签纳入所述二级标签体系中,构建三级标签体系。
10.如权利要求9所述的一种基于地产行业的录音文本标签体系构建系统,其特征在于,所述系统还包括凝练模块,用于执行以下步骤:
在业务数据中按照预设时间段运行所述三级标签体系;
根据运行结果,计算各个挖掘类标签的覆盖率;
判断所述覆盖率是否达到第四阈值;
如果所述覆盖率未达到第四阈值,则确定所述挖掘类标签为冗余标签,将所述冗余标签删除;
如果所述覆盖率达到第四阈值,则确定所述挖掘类标签为非冗余标签,将所述非冗余标签保留;
其中,所述覆盖率为:运行结果中实际存在该标签的文本数占总文本数的比例。
CN202211079079.2A 2022-09-05 2022-09-05 一种基于地产行业的录音文本标签体系构建方法及系统 Pending CN116628188A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211079079.2A CN116628188A (zh) 2022-09-05 2022-09-05 一种基于地产行业的录音文本标签体系构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211079079.2A CN116628188A (zh) 2022-09-05 2022-09-05 一种基于地产行业的录音文本标签体系构建方法及系统

Publications (1)

Publication Number Publication Date
CN116628188A true CN116628188A (zh) 2023-08-22

Family

ID=87601385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211079079.2A Pending CN116628188A (zh) 2022-09-05 2022-09-05 一种基于地产行业的录音文本标签体系构建方法及系统

Country Status (1)

Country Link
CN (1) CN116628188A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113656579A (zh) * 2021-07-23 2021-11-16 北京亿欧网盟科技有限公司 文本分类方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113656579A (zh) * 2021-07-23 2021-11-16 北京亿欧网盟科技有限公司 文本分类方法、装置、设备及介质
CN113656579B (zh) * 2021-07-23 2024-01-26 北京亿欧网盟科技有限公司 文本分类方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN110427623B (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
WO2019200752A1 (zh) 基于语义理解的兴趣点查询方法、装置和计算机设备
RU2686000C1 (ru) Извлечение информационных объектов с использованием комбинации классификаторов, анализирующих локальные и нелокальные признаки
CN108038096A (zh) 知识库文档快速检索方法、应用服务器计算机可读存储介质
CN105045875B (zh) 个性化信息检索方法及装置
CN111190900B (zh) 一种云计算模式下json数据可视化优化方法
JP2020027649A (ja) エンティティ関係データ生成方法、装置、機器、及び記憶媒体
CN107463548B (zh) 短语挖掘方法及装置
CN103646112A (zh) 利用了网络搜索的依存句法的领域自适应方法
CN102253930A (zh) 一种文本翻译的方法及装置
CN110472203B (zh) 一种文章的查重检测方法、装置、设备及存储介质
CN108170671A (zh) 一种提取新闻事件发生时间的方法
CN112183102A (zh) 基于注意力机制与图注意力网络的命名实体识别方法
CN113033183A (zh) 一种基于统计量与相似性的网络新词发现方法及系统
CN110880142A (zh) 一种风险实体获取方法及装置
CN110287493B (zh) 风险短语识别方法、装置、电子设备及存储介质
CN115422371A (zh) 一种基于软件测试知识图谱的检索方法
CN112486919A (zh) 文档管理方法、系统及存储介质
CN115422372A (zh) 一种基于软件测试的知识图谱构建方法和系统
CN116628188A (zh) 一种基于地产行业的录音文本标签体系构建方法及系统
CN112307364B (zh) 一种面向人物表征的新闻文本发生地抽取方法
CN113591476A (zh) 一种基于机器学习的数据标签推荐方法
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成系统及生成方法
US20230111911A1 (en) Generation and use of content briefs for network content authoring
JP6026036B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination