CN108885623A - 基于知识图谱的语意分析系统及方法 - Google Patents

基于知识图谱的语意分析系统及方法 Download PDF

Info

Publication number
CN108885623A
CN108885623A CN201680084092.3A CN201680084092A CN108885623A CN 108885623 A CN108885623 A CN 108885623A CN 201680084092 A CN201680084092 A CN 201680084092A CN 108885623 A CN108885623 A CN 108885623A
Authority
CN
China
Prior art keywords
information
user
module
lexical analysis
computer equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201680084092.3A
Other languages
English (en)
Other versions
CN108885623B (zh
Inventor
邹鲁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hithink Royalflush Information Network Co Ltd
Hithink Financial Services Inc
Original Assignee
Hithink Royalflush Information Network Co Ltd
Hithink Financial Services Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hithink Royalflush Information Network Co Ltd, Hithink Financial Services Inc filed Critical Hithink Royalflush Information Network Co Ltd
Publication of CN108885623A publication Critical patent/CN108885623A/zh
Application granted granted Critical
Publication of CN108885623B publication Critical patent/CN108885623B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一种用于金融领域的由一个计算机设备执行的语意分析的方法。该方法包括由该计算机设备构建知识图谱,由该计算机设备通过网络获取第一个用户在一个社交网络上发布的信息,由该计算机设备根据该信息生成一个标准信息,由该计算机设备根据该标准信息和该知识图谱生成一个用户行为,由该计算机设备根据该用户行为寻找拥有相似用户行为的另一个用户。

Description

基于知识图谱的语意分析系统及方法 技术领域
本披露书涉及一种语意分析系统及方法,尤其是涉及在金融领域中基于知识图谱方法进行语意分析的系统及方法。
背景技术
随着互联网的不断普及,人们越来越习惯在互联网上发布信息。随着互联网中的信息越来越多,信息的可信度和准确性越来越层次不齐。越来越多的互联网企业希望对他们的用户可信度进行评估。比如在某些论坛或博客中,部分用户的不实信息(包括文字、图片、语音、视频等信息)往往会导致其他用户的盲目转发,从而可能损害他人的利益、产生负面的社会舆论。当前最常见的筛选不实信息方法是通过人工在服务器端对客户的言论进行检索和过滤。这样不仅耗费时间和人力,同时由于筛选出的仅仅是不实信息的内容以及发表该言论的单一账号,该用户依然可以通过创建其他账号等方式继续发表不实言论。
又比如说,在某些包含商品交易的网页或论坛中,卖家通常会提供商品信息以及自己的介绍,但是随着用户量的增大,不实的商品信息和卖家介绍使得越来越多的买家受骗。而目前最常见的方法是通过人工在网页或者论坛的服务器端进行筛选和过滤,但是这样不仅耗费时间和人力,而且存在商品信息获取不全、人工操作偶然性大等缺点。
再比如说,在一些包含用户预测信息的网页或者论坛里,例如足球论坛、股票论坛、股市行情评估网页、彩票论坛等,用户往往拥有不同的预测方式和预测信息,但是目前没有一个系统来根据最后的真实情况评判用户预测的准确性,也没有一个系统来挖掘在信息背后隐藏的用户行为从而关联或归类用户。这就需要一个能够智能的识别出用户发表的预测类信息的系统。
简述
根据本披露书的一些实施例,提供了一种用于金融领域的由一个计算机设备执行的语意分析的方法该方法包括由该计算机设备构建知识图谱。该方法进一步包括由该计算机设备通过网络获取第一个用户在一个社交网络上发布的信息。该方法进一步包括由该计算机设备根据该信息生成一个标准信息。该方法进一步包括由该计算机设备根据该标准信息和该知识图谱生成一个用户行为。该方法进一步包括由该计算机设备根据该用户行为寻找拥有相似用户行为的另一个用户。
可选的,在该方法中,第一个用户在一个社交网络上发布的信息包括预测类信息。
可选的,该方法进一步包括通过该计算机设备为第一个用户和另一个用户建立关联。
可选的,在该方法中,第一个用户和另一个用户的关联建立在一个社交网络上。
可选的,该方法进一步包括通过该计算机设备接受第一个用户关于寻找另一个用户的输入。
可选的,在该方法中,第一个用户关于寻找另一个用户的输入进一步包括第一个用户在计算机设备中设置一个或多个筛选条件。
可选的,该方法进一步包括由该计算机设备验证第一个用户在一个社交网络上发布的信息的正确性。
可选的,在该方法中,验证第一个用户在一个社交网络上发布的信息的正确性进一步包括由该计算机设备将该信息与一个或多个已确认的信息进行对比。
可选的,该方法进一步包括由该计算机设备根据该信息的正确性对第一个用户给予评分。
根据本披露书的一些实施例,提供了一个用于金融领域的语意分析系统,包括一个处理器,一个计算机可读存储介质,计算机 存储介质承载指令,当由处理器执行指令时,该指令使处理器构建知识图谱。该指令进一步使该处理器通过网络获取第一个用户在一个社交网络上发布的信息。该指令进一步使该处理器根据该信息生成一个标准信息。该指令进一步使该处理器根据该标准信息和该知识图谱生成一个用户行为。该指令进一步使该处理器根据该用户行为寻找拥有相似用户行为的另一个用户。
可选的,在该系统中,第一个用户在一个社交网络上发布的信息包括预测类信息。
可选的,在该系统中,处理器被配置为对第一个用户和另一个用户建立关联。
可选的,在该系统中,处理器被配置为在一个社交网络上为第一个用户和另一个用户建立关联。
可选的,在该系统中,处理器被配置为接受第一个用户关于寻找另一个用户的输入。
可选的,在该系统中,第一个用户关于寻找另一个用户的输入进一步包括第一个用户在处理器中设置一个或多个筛选条件。
可选的,在该系统中,处理器进一步被配置为验证第一个用户在一个社交网络上发布的信息的正确性。
可选的,在该系统中,处理器进一步被配置为将第一个用户在一个社交网络上发布的信息与一个或多个已确认的信息进行对比。
可选的,在该系统中,处理器进一步被配置为根据该信息的正确性对第一个用户给予评分。
可选的,在该系统中,处理器进一步被配置为对第一个用户在一个社交网络上发布的信息执行图片识别、视频识别、语音识别、文本格式处理、数字及单位归一化处理、加密文档解密中至少一种操作以生成标准信息。
附图描述
为了更清楚地说明本披露书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本披露书的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本披露书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构和操作。
图1所示的是语意分析系统的一种示例系统配置的示意图;
图2所示的是示例语意分析系统的模块示意图;
图3所示的是示例语意分析流程图;
图4所示的是示例语意识别模块的结构示意图;
图5所示的是示例知识图谱构建/更新流程图;
图6所示的是示例语意信息评估流程图;
图7所示的是示例语意分析系统更新用户评分的流程图;
图8所示的是示例语意信息对比流程图;
图9所示的是示例语意分析系统关联用户的流程图;
图10所示的是示例语意分析系统寻找并关联用户的示例流程图;
图11所示的是示例语意分析系统生成用户行为与评分的关系的流程图;
图12所示的是示例语意分析系统优化用户行为模型的流程图;
图13所示的是示例语意分析系统的计算机设备配置的示意图。
具体描述
如本披露书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。术语“包括”与“包含”仅提示包括已明确标识的步 骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
“语意”代表的是信息中包含的意思即人类可以理解到的意思,“语义”代表的是信息具有的本身意义而不包含人的理解,除非上下文明确提示例外情形,在本披露书“语意”也包含了“语义”的意思。
虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用,然而,任何数量的不同模块可以被使用并运行在客户端和/或服务器上。所述模块仅是说明性的,并且所述系统和方法的不同方面可以使用不同模块。
本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
本披露书所述的语意分析方法是指通过收集信息,处理信息,语意识别信息,评估和对比识别后的信息提供分析结果等。在一些实施例中,本披露书一方面涉及一种语意分析系统。该语意分析系统可以包括收集模块、系统存储模块、处理模块、语意识别模块、评估模块、对比模块和输出模块。本披露书另一方面涉及一个基于知识图谱的语意识别方法。该语意分析方法可以包括收集信息,识别信息中的语意向量,构建语意向量库,构建知识图谱,将语意向量映射至知识图谱中,根据知识图谱生成语意识别结果以及各语意向量之间的关系等。本披露书另一方面涉及通过语意识别信息,评估信息的正确性,对信息以及其相关联的用户评分。本披露书另一方面涉及通过分析用户的行为,根据行为对用户分类,统计同类用户的关联度和评分来生成用户行为与评分的关系。
本披露书涉及一种可以智能识别服务器端或者网页中的信息的系统。所述系统既可以将不实信息判断识别出来,又可以将不 实信息与所对应的发表该信息的用户关联,还可以根据信息之间的关联找到多个用户之间(或者一个用户的多个账号之间)的关系和关联来发现相似或相同的用户。
本披露书涉及一种可以智能识别服务器端或者交易网页信息的系统。所述系统既可以将内容识别出来,又可以判断并查找与内容相关的权威性或可信度高的网站,从而识别出不实信息或资料。
本披露书涉及一种可以根据之后发生的真实结果智能的判断出预测准确性的系统。所述系统还可以通过分析预测类信息识别出深层次的内容点(例如不同用户的预测策略、投资方式等),从而关联或归类拥有相似特点的用户。随着社交网络的普及和网络硬件设备的小型化,所述系统也可以满足用户使用网络硬件设备与拥有相似特点的用户进行通信的需求。
本披露书的不同实施例可适用于多种领域,包括但不限于金融及其衍生物投资(包括但不限于股票、债券、黄金、纸黄金、白银、外汇、贵金属、期货、货币基金等)、科技(包括但不限于数学、物理、化学及化学工程、生物及生物工程、电子工程、通信系统、互联网、物联网等)、政治(包括但不限于政治人物、政治事件、国家)、新闻(从区域而言,包括但不限于地区新闻、国内新闻、国际新闻;从新闻主体而言,包括但不限于政治新闻、体育新闻、科技新闻、经济新闻、生活新闻、气象新闻等)等。依据本披露书的至少一个实施例,可以对各种信息资源,如文字、图片、音频、视频的内容中的语意信息进行快速的收集和处理,并根据知识图谱进行语意识别,评估和对比语意识别后的信息并生成语意分析结果,使拥有相似用户行为的用户相互关联。本披露书的不同实施例应用场景包括但不限于网页、浏览器插件、客户端、定制系统、企业内部分析系统、人工智能机器人等一种或多种组合。以上对适用领域的描述仅仅是具体的示例,不应被视为是唯一可行的实施方案。显然,对于本领域的专业人员来说,在了解一种基于语意识 别的语意分析方法和系统的基本原理后,可能在不背离这一原理的情况下,对实施上述方法和系统的应用领域形式和细节上的各种修正和改变,但是这些修正和改变仍在以上描述的范围之内。例如,在本披露书的一个实施例中,语意分析结果是以统一的文字形式显示给用户的,对于本领域的专业人员来说,语意分析结果也可以是以统一的音频格式或视频格式显示给用户。与此类似的替换或修正或改变,仍在本披露书的保护范围之内。
图1所示的是语意分析系统的一种示例系统配置的示意图。示例系统配置100可以包含但不限于一个或多个语意分析系统110、一个或多个网络120和一个或多个信息源130。语意分析系统110可以用于对收集的信息进行语意分析以生成分析结果的系统。语意分析系统110可以是一个服务器,也可以是一个服务器群组。一个服务器群组可以是集中式的,例如数据中心。一个服务器群组也可以是分布式的,例如一个分布式系统。语意分析系统110可以是本地的,也可以是远程的。网络120可以提供信息交换的渠道。
网络120可以是单一网络,也可以是多种网络组合的。网络120可以包括但不限于局域网、广域网、公用网络、专用网络、无线局域网、虚拟网络、都市城域网、公用开关电话网络等一种或多种组合。网络120可以包括多种网络接入点,如有线或无线接入点、基站或网络交换点,通过以上接入点使数据源连接网络120并通过网络发送信息。信息源130可以提供各种信息。
信息源130可以包括一个或多个服务器,一个或多个通信终端,或一个或多个服务器和一个或多个通信终端的组合。进一步地,服务器可以是web服务器、文件服务器、数据库服务器、FTP服务器、应用程序服务器、代理服务器器等,或者上述服务器的任意组合。上述服务器可以是基于一个或多个社交媒体的服务器。通信终端可以是手机、个人电脑、可穿戴设备、平板电脑、智能电视等,或则上述通信终端的任意组合。通信终端也可以是其他包含通信功能和用户交互功能的电子设备。信息源130可以通过网络120发 送信息和数据到语意分析系统110,信息源130可以是用户输入的信息,也可以是其他数据库或信息源提供的信息。语意分析系统110可以通过网络120发送语意分析结果到信息源130。
图2所示的是一个示例语意分析系统110的模块示意图。语意分析系统110可以包含但不限于一个或多个收集模块201、一个或多个处理模块202、一个或多个语意识别模块203、一个或多个评估模块204、一个或多个对比模块205、一个或多个输出模块206、一个或多个系统存储模块207。上述的模块中部分或全部可以与图1所示的网络120连接。上述模块可以是集中式的也可以是分布式的。上述模块中的一个或多个模块可以是本地的也可以是远程的。
本申请中的“模块”指的是存储在硬件、固件中的逻辑或一组软件指令。这里所指的“模块”能够通过软件和/或硬件模块执行,也可以被存储于任何一种计算机可读的非临时媒介或其他存储设备中。在某些实施例中,一个软件模块可以被编译并连接到一个可执行的程序中。显然,这里的软件模块可以对自身或其他模块传递的信息作出回应,并且/或者可以在检测到某些事件或中断时作出回应。可以在一个计算机可读媒介上提供一个被设置为可以在计算设备上(例如处理器1320)执行操作的软件模块,这里的计算机可读媒介可以是光盘、数字光盘、闪存盘、磁盘或任何其他种类的有形媒介;也可以通过数字下载的模式获取软件模块(这里的数字下载也包括存储在压缩包或安装包内的数据,在执行之前需要经过解压或解码操作)。这里的软件代码可以被部分的或全部的储存在执行操作的计算设备的存储设备中,并应用在计算设备的操作之中。软件指令可以被植入在固件中,例如可擦可编程只读存储器(EPROM)。显然,硬件模块可以包含连接在一起的逻辑单元,例如门、触发器,以及/或包含可编程的单元,例如可编程的门阵列或处理器。这里所述的模块或计算设备的功能优选的作为软件模块实施,但是也可以被表示在硬件或固件中。一般情况下,这里所说的模块是逻辑模块,不受其具体的物理形态或存储器的 限制。一个模块能够与其他的模块组合在一起,或被分隔成为一系列子模块。
收集模块201可以主要用于以各种方式收集所需要的信息或数据,收集信息的方式可以是直接的(例如直接通过网络120从一个或多个信息源130获取信息),也可以是间接的(例如通过处理模块202或者系统存储模块207来获取信息)。
处理模块202可以主要用于信息或数据的预处理,信息的预处理可以一部分或者全部由用户完成,也可以一部分或者全部由处理模块202完成。信息的预处理可以包括但不限于图片识别、视频识别、语音识别、文本格式处理、数字及单位归一化处理、加密文档解密等一种或多种组合。处理模块202可以对信息进行一种或多种上述预处理操作从而将信息转化成相似的格式(标准信息)。
语意识别模块203可以主要用于识别处理模块202所处理过的信息中的语意,并根据识别到的语意信息构建或更新知识图谱。语意识别模块203识别信息中的语意的方式可以一部分或者全部由用户完成,也可以一部分或者全部由语意识别模块203完成。
评估模块204可以主要用于对语意识别模块203所识别到的语意信息进行评估。评估方法可以包括但不限于将语意信息与相关内容进行比对来确定语意信息的正确性。相关内容可以是通过网络120从一个或多个信息源130获取的,也可以是通过系统数据模块207获取的,也可以是通过建立一个或多个评估模块204与外部信息源(未在图2中标出)的网络连接从外部信息源获取的。
对比模块205可以用于对语意识别模块203所识别到的语意信息与语意信息本身或者其他内容进行对比。比如,对比方法可以包括将多个语意信息进行相互对比,也可以包括将一个或多个语意信息与包含相关内容的信息进行对比。所述对比方法可以包括将语意信息与用户进行匹配。进一步地,根据多个语意信息相互 对比和/或语意信息与用户相匹配的结果,对比模块205可以将多个用户进行关联。
在本披露书的一些实施例中,对比模块205可以与语意识别模块203进行双向通信。信息在语意识别模块203中被识别之后会在对比模块205中被对比。在本披露书的一些实施例中,对比模块205也可以从评估模块204中获得评估结果。在评估结果或者语意识别过的信息被对比之后,对比模块205可以生成一个对比结果。所述对比结果可以被输出模块输出206,也可以通过评估模块205进行评估,也可以被存储到系统存储模块207中。
输出模块206可以用于将评估模块204和对比模块205所生成的评估和对比结果进行整合或汇总。输出模块206可以将所述整合或汇总后的结果存储在系统存储模块207中,也可以将所述结果输出到图1中所示的信息源130中,也可以将输出模块206与语意分析系统110的其他设备或接口相连(未在图2中标出)从而将所述结果输出到所述其他设备或接口中。
系统存储模块207可以泛指具有存储功能的设备或部分。系统存储模块207用于存储从信息源130收集的数据和语意分析系统110工作中产生的各种数据。系统存储模块207可以是本地的,也可以是远程的。系统存储模块207与语意分析系统110其他模块间的连接或通信可以是有线的,也可以是无线的。
对于本领域的专业人员来说,在了解信息分析系统及方法的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模块连接,对实施上述方法和系统的应用领域形式和细节上的各种修正和改变,但是这些修正和改变仍在以上描述的范围之内。例如,上述模块可以是体现在一个系统中的不同模块,也可以是一个模块实现上述的两个或两个以上模块的功能。比如,在本披露书的一些实施例中,评估模块204和对比模块205可以被合并为一个评估对比模块。在本披露书的一些实施例中,评估模块204可以被包括在语意识别模块203中,对比 模块205也可以被包括在语意识别模块203中。在本披露书的一些实施例中,评估模块204、语意识别模块203、对比模块205可以被合并为一个模块。
图3所示的是一个示例语意分析方法300的流程图。需要的信息在步骤301中被收集。在本披露书的一些实施例中,信息和/或数据可从信息源130获得。信息源130可以包括但不限于服务器、通信终端。进一步地,服务器可以是web服务器、文件服务器、数据库服务器、FTP服务器、应用程序服务器、代理服务器器等,或者上述服务器的任意组合。上述服务器可以是基于一个或多个社交媒体的服务器。通信终端可以是手机、个人电脑、可穿戴设备、平板电脑、智能电视等,或者上述通信终端的任意组合。通信终端也可以是其它包含通信功能和用户交互功能的电子设备。进一步地,在步骤301,用户通过各种通信终端输入的原始信息可以被接收。上述需要的信息可以包括但不限于各种新闻、公告、评论、研报、博客、消息、报告、通知、论文、期刊等中的一种或多种组合。上述需要的信息可以是关于各个行业的信息,包括但不限于与体育、娱乐、经济、金融、股票、证券、政治、军事、文化、艺术、科学、工程等中的一种或多种组合相关的信息和/或数据。上述需要的信息的形式可以包括但不限于文字、图片、数据、文件、音频、视频等中的一种或多种组合。步骤301可以由收集模块201完成。
在披露书的一些实施例中,收集模块201可以从信息源130收集信息并将收集到的信息传输给处理模块202。收集模块201也可以将收集到的信息传输给系统存储模块207。在特定的情况下(例如收集到的信息已经提前做过预处理或呈现处理之后的形式),收集模块201也可以将收集到的信息不经过处理模块202直接传输给语意识别模块203。收集模块201可以接收处理模块202发送的请求,也可以按照该请求访问系统存储模块207或者信息源130,以获取需要的数据。需要的数据被获取之后,收集模块201可以将该数据传输给处理模块202。收集模块201也可以接收语意 识别模块203发送的请求,也可以按照该请求访问系统存储模块207或者信息源130,以获取需要的数据。需要的数据被获取之后,收集模块201可以将该数据传输给语意识别模块203。
收集模块201可以主要用于以各种方式收集所需要的信息。收集模块201可以通过向信息源130发送请求,以获取需要的信息。收集模块201在获取需要的信息后,可以将所获得的信息进行下一步处理或者存储在系统存储模块207中。收集模块201也可以通过向系统存储模块207发送请求,以获取存储在系统存储模块207中的信息。可选择地,系统存储模块207也可以直接向信息源130发送请求,获取的信息可以被存储在系统存储模块207中。
步骤301中收集的信息在步骤302被处理。步骤302可以由处理模块202完成。步骤302执行的信息处理可以包括但不限于图片识别、视频识别、语音识别、文本格式处理、数字及单位归一化处理、加密文档解密等一种或多种组合。步骤302可以包括对信息进行一种或多种上述信息处理操作从而将信息转化成标准信息。在本披露书的一些实施例中,步骤301收集的信息可以为文字信息。该文字信息可以直接或间接来源于文本、图片、音频、视频或上述来源的任意组合。进一步地,当文字信息来源于图片时,语意分析系统110可通过图片识别(例如光学字符识别OCR)将图片转化为文本。当文字信息来源于音频时,语意分析系统110可通过语音识别或字幕提取将音频转化为文本。当文字信息来源于视频时,语意分析系统110可通过语音识别或字幕文件提取将视频转化为文本。文字信息可以为汉语、英语、德语、西班牙语、阿拉伯语、法语、日语、韩语、俄语、葡萄牙语等,或上述语言的任意组合。在本披露书的一些实施例中,语意分析系统110可以判断文字信息中包含的一种或多种语言或语言组合以正确的表示文字信息的内容。判断过程可以一部分或者全部由用户完成,也可以一部分或者全部由语意分析系统110完成。进一步地,文字信息可以是字 母、数字、字符、词语、短语、语句、段落、篇章等,或其中的一种或多种,或由任意数量的标识符组成的集合,该标示符集合可以包含一种或多种语意。在本披露书的一些实施例中,被成功转化为文本的原始信息(raw data)和/或元数据(metadata)可以被存储到系统存储模块207或传输到信息源130中,也可以被删除或覆盖。
在本披露书的一些实施例中,不同来源的文字信息在经过转化变成文本之后可以被格式处理。文本格式处理可以将文本转换为统一的文本格式。统一的文本格式可以包括但不限于txt、ASCII、MIME等一种或多种组合。在经过文本格式处理之后,系统可以对处理后的文本中的数字和单位进行归一化处理。例如,将“三万元”转换为“30000元”、将“35打”转换成“420个”等。
在本披露书的一些实施例中,处理模块202可以与收集模块201进行双向通信。处理模块202可以处理收集模块201传输的信息,信息处理可以包括但不限于图片识别、视频识别、语音识别、文本格式处理、数字及单位归一化处理、加密文档解密等一种或多种组合。处理模块202也可以向收集模块201发送信息,发送的信息可以包括但不限于经过处理的信息以及控制信息,该控制信息可以包括但不限于信息收集方式的控制信息、信息收集时间的控制信息、信息收集来源的控制信息等。处理模块202可以与语意识别模块203进行双向通信。处理模块202可以将经过处理后的信息传输给语意识别模块203,也可以接收语意识别模块203发送的信息。处理模块202可以与系统存储模块207进行双向通信。处理模块202可以将经过处理后的信息传输给系统存储模块207进行储存,也可以在处理过程中向系统存储模块207发送请求并接收系统存储模块207发送的信息。
信息在步骤302经过处理之后,可以在步骤303被语意识别。步骤303可以由语意识别模块203完成。步骤303可以包括将经过步骤302处理过的信息拆分成一个或多个语意字段。比如, “星期三大盘涨幅会超过2%”可以被拆分成“星期三”、“大盘”、“涨幅”、“超过”、“2%”等多个语意字段。所述语意字段可以被对应到一个知识图谱中。所述知识图谱可以根据所述语意字段之间的关联,识别所述语意字段并生成识别后的结果。
在本披露书的一些实施例中,步骤301收集到的信息可能提前被做过如步骤302所述的处理或者信息本身即呈现处理之后的形式。在这种情况下,信息在步骤301被收集以后可以直接在步骤303经过语意识别。在本披露书的一些实施例中,步骤303可以包括检测语意字段之间的关联是否充分(例如是否足够识别出所述语意字段等)。进一步地,如果语意字段之间的关联不够充分,语意分析系统110可以重复进行步骤301以收集更多的信息和/或步骤302以对信息(新获得的信息和/或处理过的信息)进一步处理从而完善语意字段之间的关联。所述步骤301和/或302可以重复进行直到语意分析系统110检测出语意字段之间的关联已经足够识别出所述语意字段。在本披露书的一些实施例中,重复步骤301和/或302达到或超过特定的次数之后,语意分析系统110执行步骤304。在本披露书的一些实施例中,步骤303也可以包括检测步骤302所处理后的信息或者直接从步骤301所收集到的信息是否满足步骤303所需要的条件(例如文本格式是否正确、是否进行了数字和单位的归一化)。进一步地,如果收集到的信息不满足步骤303所需要的条件,语意分析系统110可以重复进行步骤302以进一步处理收集到的信息直到信息满足步骤303所需要的条件。
在本披露书的一些实施例中,语意识别模块203可以向收集模块201发送请求,收集模块201可以根据请求访问系统存储模块207或从一个或多个信息源130,以获取需要的信息。需要的信息被获取之后,收集模块201将该信息传输给处理模块202。所述处理模块202在处理该信息后可以将信息传输给语意识别模块203。可选择地,收集模块201在收到从语意识别模块203发来的请求之后,也可以将收集模块201中的信息直接传输给语意识别模块 203,所述信息可以来自信息源130或系统存储模块207。可选择地,语意识别模块203可以直接访问系统存储模块207,并向系统存储模块207发送请求以获取需要的信息,该信息可以被传输给语意识别模块203。可选择地,系统存储模块207可以在没有收到请求的情况下向语意识别模块203发送信息。
语意识别模块203可以对收到的信息进行语意识别。进一步地,语意识别模块203可以将语意识别好的信息传输给评估模块204,也可以将语意识别好的信息传输给对比模块205,也可以将语意识别好的信息储存在系统存储模块207中。
信息在步骤303被语意识别之后,可以在步骤304被评估。步骤304可以由评估模块204完成。步骤304可以包括将在步骤303识别出的语意信息与相关内容进行比较从而确定语意信息的正确性。所述相关内容可以是通过数据库、网页、书籍、论坛等渠道直接获得的,也可以是先从上述渠道中获得并存储到系统存储模块207中,再从系统存储模块207中获得的。在本披露书的一些实施例中,所述相关内容可以是可信度较高的信息。例如,“2016年4月5日A股市大盘上涨”这一信息可以与A证券交易所发布的相关内容“A股市大盘2016年4月5日涨幅0.55%”进行比较从而得出上述信息的正确性,即上述信息是正确的。进一步地,步骤304还可以包括将一条或多条信息与一个或多个用户进行匹配,从而评估模块204可以根据语意信息的正确性生成相匹配的用户的可信度。信息在步骤304被评估之后,评估模块204可以在步骤306中生成一个评估结果。所述评估结果可以包括所述信息的正确性,也可以包括所述用户的可信度。在本披露书的一些实施例中,所述正确性和可信度均可以用数值或百分比来表示,语意分析系统110也可以比较不同用户自身正确性或可信度数值或百分比。
信息在步骤303被语意识别之后,也可以在步骤305进行对比。步骤305可以由对比模块205完成。步骤305可以包括将在步骤303识别出的一条语意信息中所包含的一个或多个语意字段、 两个或两个以上的语意字段的组合进行对比或者将多条语意信息中的一个或多个相似的语意字段进行对比。进一步地,步骤305可以包括将一条或多条语意信息与一个或多个用户进行匹配,从而对比模块205可以根据相匹配的语意信息将多个用户进行对比。信息在步骤305对比之后,对比模块205可以在步骤307中生成一个对比结果。所述对比结果可以包括所述一条或多条信息的对比结果,也可以包括所述用户的对比结果。比如,对比结果可以是“用户A在近一个年内投资多为短线投资”、“用户B投资行为与用户A有83%的相似度”等。
在本披露书的一些实施例中,在步骤303得到语意信息在步骤304(和/或步骤306)被评估之后,可以在步骤305被对比(反之亦可)。进一步地,一条或多条语意信息可以与一个或多个用户进行匹配。在对语意信息完成所述评估和对比步骤之后,语意分析系统110可以基于步骤304和305生成与评估结果和对比结果相关的结果。所述结果可以包括信息的评估和对比结果,也可以包括相匹配的用户的评估和对比结果。
在本披露书的一些实施例中,评估模块204可以与语意识别模块203进行双向通信。信息在语意识别模块203中被识别之后会在评估模块204中被评估。在本披露书的一些实施例中,评估模块204也可以从对比模块205中获得对比结果。在语意识别过的信息或者对比结果被评估之后,评估模块204可以生成一个评估结果。所述评估结果可以被输出模块输出206,也可以通过对比模块205进行对比,也可以被存储到系统存储模块207中。
需要注意的是,上述对语意分析系统流程的描述只是为了便于理解披露书,不应被视为是本披露书唯一可行的实施例。
图4所示的是一个示例语意识别模块203的组件示意图。语意识别模块203可以包括一个或多个知识图谱401、一个或多个语意向量库402、一个或多个语意向量构建单元403、一个或多个语意向量映射单元404、一个或多个知识图谱管理单元405。知识图 谱401可以包括一个或多个语意向量,也可以包括多个语意向量之间的关联。语意向量可以包括一个或多个具有相同意义的字、词或者短语。比如,语意向量“我”可以包括“我”、“本人”、“我本人”、“我自己”等。在本披露书的一些实施例中,知识图谱401可以包括多个语意向量和语意向量之间的关联。比如,知识图谱401可以包括“今天”“天气”“晴天”“下雨”等语意向量,也可以包括“今天-天气-晴天”等语意向量之间的关联。在本发明的一些实施例中,知识图谱401可以存储在系统存储模块207中。
语意向量库402可以存储一个或多个语意向量。所述语意向量可以是预先存储在语意向量库402中的,也可以是从语意向量构建单元403获得的。语意向量构建单元403可以基于收集到的信息构建语意向量。所述收集到的信息可以是经过步骤302处理过的信息,也可以是经过步骤301所直接获得的信息。语意向量构建单元403可以与处理模块202或者收集模块201相连。语意向量构建单元403也可以与系统存储模块207相连。语意向量构建单元403可以将构建好的语意向量存储在语意向量库402中,也可以将构建好的语意向量存储在系统存储模块207中。
语意向量映射单元404可以将语意向量库402(和/或系统存储模块207)中的语意向量映射(mapping)到知识图谱401中。所述映射可以包括将语意向量库中的语意向量与知识图谱中的空间位置进行匹配和对应,当知识图谱中该语意向量的空间位置发生变化时,语意向量库可以与变化后的空间位置对应。语意向量映射单元404也可以直接将语意向量构建单元403中的语意向量映射到知识图谱401中。
知识图谱管理单元405可以包括将知识图谱401中被映射的语意向量进行聚类,也可以包括去除知识图谱中重复的语意向量,也可以包括标注所述语意向量聚成的类。进一步地,知识图谱管理单元405可以根据聚类后的语意向量构建不同类的语意向量之间的关联。知识图谱管理单元405可以根据聚类的语意向量以 及不同类的语意向量之间的关联更新知识图谱401。在本披露书的一些实施例中,知识图谱401可以生成或者代表一个语意识别的结果。所述结果可以表示对于收集到的信息的语意识别结果。所述结果可以被传输到评估模块204和/或对比模块205中,也可以被存储到系统存储模块207中。知识图谱401也可以将语意向量与用户进行匹配。语意向量映射单元403可以将用户映射到相匹配的知识图谱中的语意向量上。知识图谱管理单元405可以将用户根据相匹配的语意向量聚类。进一步地,知识图谱管理单元405可以根据聚类后的语意向量构建与语意向量相匹配的同类或者不同类的用户之间的关联。
以上对语意识别模块的描述仅仅是具体的示例,不应被视为是唯一可行的实施方案。对于本领域的专业人员来说,在了解所需要的信息的基本原理后,可能在不背离这一原理的情况下,对所需要的信息的内容进行各种修正和改变,但是这些修正和改变仍在以上描述的范围之内。
图5所示的是一个示例知识图谱构建/更新流程图。在知识图谱还未构建的时候,步骤501可以包括构建一个知识图谱。所述知识图谱的构建可以是基于语意向量库402中(和/或系统存储模块207中)存储的现有语意向量的。步骤501可以由知识图谱管理单元405完成。知识图谱在步骤501中被构建完成之后,语意识别模块203可以在步骤502中收集信息。所述收集到的信息可以是经过步骤302处理过的信息,也可以是经过步骤301所直接获得的信息。信息在步骤502被收集之后,可以在步骤503中被语意识别从而产生一个或多个语意向量。在信息被语意识别之后,语意识别模块203可以重新进行步骤501从而根据步骤503所语意识别出的语意向量更新知识图谱。所述知识图谱可以被存储在语意识别模块203和/或系统存储模块207中。所述知识图谱可以是知识图谱401。
在本披露书的一些实施例中,流程300(如图3所示)中的 步骤304和306可由图6中所示的示例语意信息评估流程600完成。流程600可以由评估模块204(和/或语意分析系统110的其他一个或多个组件)实现。步骤601可以包括收集一个或多个语意识别后的信息(比如在步骤303中获得的信息)。所述信息可以是从步骤503(或步骤303)中获得的,也可以是从系统存储模块207中获得的。经过语意识别后的信息在步骤601中被收集之后,会在步骤602中被分析。所述步骤602可以包括将所述信息中词语按照词语类型提取出来,词语类型可以包括但不限于名词、动词、形容词、副词、助词、拟声词、数字、表情符号(emoji)、专有符号等或其中的一种或多种。可选择地,文字信息也可以应用一定的分词算法被处理。所述分词算法可以包括但不限于正向最大匹配法、逆向最大匹配法、最少切分法、双向最大匹配法、特征扫描法、标志切分法、词类标注法、理解分词法、互现信息分词法、统计取词方法、统计机器学习法等,或上述分词方法的一种或多种。步骤602还可以包括对文本信息进行实体识别。实体可以包括但不限于产品、服务、机构名、人名、地名、时间、日期、货币、数字、百分比等中的一种或多种。实体识别方法可以包括但不限于隐马尔科夫模型、最大熵模型、支持向量机、基于规则的识别方法和基于统计的识别方法等,或其中的一种或多种。步骤602还可以包括根据分词处理和实体识别的结果等来分析信息是否包含预测类(例如预测某只个股当天或在一定时间区间的涨跌幅度)或者陈述类(例如陈述当天或一定时间区间的大盘走势)的内容。在本披露书的一些实施例中,上述分词处理和实体识别的方法可以由语意识别模块203实现。
信息在步骤602中被分析以后,语意分析系统110可以在步骤603中根据步骤602中实体识别获得的实体名称查询相关内容。所述实体名称可以包括具有实际意义的名词,比如,“比尔˙盖茨”、“微软”等。所述相关内容可以包括数据库、论文、网页等任何已确定的信息。比如,已确定的信息可以来自“维基百科”、 “新浪新闻”、“未来时速”(比尔˙盖茨自传)等。步骤603可以包括对查询到的所述已确定的信息的可信度和完整度等进行排名,对于信息中的一个或多个预测性或者陈述性的内容,评估模块204可以根据排名将一个或多个已确定的信息与所述预测性或者陈述性的内容进行匹配。比如,对于“大盘今天有超过200支股票跌停”这一陈述性内容,评估模块204可以从已确定的信息中筛选出与大盘涨跌的股票数量有关的结果,并按照可信度和完整度排名。评估模块204可以根据排名将一个或多个结果与上述陈述性内容进行匹配。步骤603也可以包括对查询到的所述已确定的信息与预测性或者陈述性的内容进行关联度的分析。进一步地,已确定的信息可以根据与内容的关联度进行排名,评估模块204可以根据所述排名将一个或多个已确定的信息与所述预测性或者陈述性的内容进行匹配。比如,对于“大盘今天有超过200支股票跌停”这一陈述性内容,“大盘有225支股票跌停”这一结果比“大盘有超过37支股票涨停”的这一结果的关联度更高,排名更高。评估模块204可以根据排名将一个或多个已确定的信息与上述陈述性内容进行进一步匹配。
评估模块204在步骤603查找到相关内容等之后可以在步骤604对信息进行评估。在本披露书的一些实施例中,所述评估可以包括将相匹配的已确定的信息与所述预测性或者陈述性的内容进行比较从而得出预测性或者陈述性内容的正确性。预测性内容也可以先被储存,在一定的时间点后,即预测的时间点到了之后,评估模块204可以再根据预测性内容查找已确定的信息并进行比较从而得出预测性内容的正确性。
在本披露书的一些实施例中,评估模块204在步骤602完成对信息的分析之后,可以直接在步骤604评估分析之后的信息。所述评估可以包括对信息所包含的预测性或者陈述性的内容进行比较从而确定所述内容之间互相的正确性和矛盾性。评估模块204在进行步骤604并评估完成信息之后可以在步骤605中生成一个评 估结果。比如,评估结果可以包括“用户C在这一周对于ABC这一股票的涨跌预测准确性为75%”、“用户D这个月在B股票论坛中92%的帖子是可信的”等。在本披露书的一些实施例中,步骤605可以包括将用户与预测性或者陈述性的内容进行匹配。进一步地,所述评估结果可以是与用户相匹配的。
图7所示的是一个示例语意分析系统更新用户评分的流程图。步骤701可以包括设定用户评分的初始值。所述用户可以是步骤605中与预测性或者陈述性内容相匹配的用户。可选的,所有用户评分初始值可以是相同的(例如用户评分初始值可以是0分)。步骤702可以包括判断是否预设条件被满足。预设条件可以与步骤605中所述的信息相关。例如,预设条件是判断某用户A的语意信息是否分析完全,或者是判断一个或多个信息源130的信息是否分析完全,也可以是固定的次数(例如进行1000次的语意分析),也可以与之前的评分或者连续的评分变化有关(例如判断新的评分较之前某次的评分是否高出5%,或者判断连续两次评分是否发生变化)。如果没有满足预设条件,语意分析系统110可以在步骤703中进行语意分析。所述语意分析可以由语意分析系统110中一个或多个模块实现。
在本披露书的一些实施例中,步骤703可以包括本披露书其他地方所述的用户与预测性或者陈述性内容的匹配。步骤703还可以包括本披露书其他地方所述的将已确定的信息与所述预测性或者陈述性的内容进行比较来获得评估结果。所述评估结果可以包含预测性或者陈述性内容的正确性。在本披露书的一些实施例中,评估结果可以是与某个或某类用户相关联的。在本披露书的一些实施例中,评估结果可以包含预测性或者陈述性内容的知识量和预测难度(例如“今天大盘涨了”这一条陈述性内容的预测难度和知识量较小,而“明天某只个股涨幅超过8.5%”这一条预测性内容的预测难度和知识量较大)。
语意分析系统110在完成步骤703后可以在步骤701中根 据所述评估结果更新用户的评分。在本披露书的一些实施例中,所述内容的知识量和预测难度可以影响到所述评分。进一步地,知识量越大,预测难度越大的内容如果正确可以获得的评分更高。在本披露书的一些实施例中,预测性内容可获得的评分比陈述性内容可获得的评分更高。
当预设条件在步骤702中被满足的时候,语意分析系统110可以在步骤704中生成一个或多个用户评分。在本披露书的一些实施例中,所述流程700还可以对多个用户进行排名。在本披露书的一些实施例中,语意分析系统110可以根据用户评分对多个用户进行排名。进一步地,语意分析系统110可以根据排名对用户实行相应措施。所述相应措施可以包括对高排名用户予以奖励和对低排名用户予以惩罚。在对所述用户实行相应措施之后,语意分析系统110可以将排名以及奖罚措施生成后发送给一个或多个用户。在本披露书的一些实施例中,用户可以与高排名的用户进行通信。比如,在金融领域,用户可以与高排名的用户(或称为“投资高手”)请教投资技巧、市场分析等。所述用户通过语意分析系统110与高排名用户的通信。所述通信可以建立在社交网络上。所述社交网络可以包括现实社交、短信、彩信、电子邮件、QQ、MSN、微信、微博、豆瓣、Twitter、Facebook、Instagram、Yahoo Messenger、Reddit、人人、即时通讯软件工具、论坛等中的一种或多种。
在本披露书的一些实施例中,流程300(如图3所示)中的步骤305和307可由图8中所示的示例语意信息对比流程800完成。流程800可以由对比模块205(和/或语意分析系统110其他组件)实现。步骤801可以包括收集一个或多个语意识别后的信息(比如在步骤303中获得的信息)。所述信息可以是从步骤503(或步骤303)中获得的,也可以是从系统存储模块207中获得的。经过语意识别后的信息在步骤801中被收集之后,会在步骤802中被分析。所述步骤802可以包括将所述信息中词语按照词语类型提取出来,词语类型可以包括但不限于名词、动词、形容词、副词、 助词、拟声词、数字、表情符号(emoji)、专有符号等或其中的一种或多种。可选择地,文字信息也可以应用一定的分词算法被处理。所述分词算法可以包括但不限于正向最大匹配法、逆向最大匹配法、最少切分法、双向最大匹配法、特征扫描法、标志切分法、词类标注法、理解分词法、互现信息分词法、统计取词方法、统计机器学习法等,或上述分词方法的一种或多种。步骤802还可以包括对提取出的词语进行词语归类。所述归类可以包括将具有相关性的词语整理到一类中。所述信息可能包括多种类的词语。在本披露书的一些实施例中,步骤802可以包含根据统计算法判断所述信息最接近的类别。所述统计算法可以包括但不限于卡方统计、信息增益、互信息、几率比、交叉熵、类间信息差、关键词统计、决策树、Rocchio、朴素贝叶斯、神经网络、支持向量机、线性最小平方拟合、最邻近算法、遗传算法、情感分类、最大熵、Generalized Instance Set、同义词配置、布尔关联规则、位置规则、机器学习等一种或多种的组合。
语意分析系统110在步骤802中分析完信息后可以在步骤803中将信息中的某一类别的一个或多个词语进行相互对比或者将这一类别中的一个或多个词语与信息中一个或多个其他类别的词语进行对比。在本披露书的一些实施例中,步骤803可以包括根据信息将用户与词语分类进行匹配。进一步地,步骤803可以包括将不同用户根据词语分类进行对比。在本披露书的一些实施例中,如果收集到的信息中的词语已经被分词处理,词语归类或是直接呈现处理完的状态(例如收集到的信息可以是网页上的关于喜欢长线还是短线投资的选择信息),那么收集到的信息可以直接在步骤803中被对比。语意分析系统110在步骤803中对比信息之后可以在步骤804中生成对比结果。所述对比结果可以包括根据词语分类而区分出不同类型的用户并对相同或者不同类型的用户进行比较。
图9所示的是一个示例语意分析系统110关联用户的流程 图。语意分析系统110可以在步骤901中进行一个或多个语意分析。所述语意分析可以由语意分析系统110中一个或多个模块实现。在本语意分析系统110在步骤901中进行语意分析之后可以在902中分析用户的行为。步骤902可以包含步骤802所述的或者本披露书其他实施例中提到的信息收集、分词处理、词语分类的方法。步骤902可以进一步地包含根据分类后的词语判断语意识别后信息中包含的用户行为。比如,在金融领域,用户行为可以包括短线投资、长线投资、超短线投资、满仓投资、“抄底摸顶型”投资、“小赢即止型”投资、做空型投资等。在本披露书的一些实施例中,词语分类后的类别可以与用户行为关联。进一步地,一种或多种所述类别可以与一种或多种用户行为关联。在金融领域,“短线投资”,“高风险”,“投机”,“尾市操作”等具有一定相似性的词语可以整理到一类中并与“短线投资”这一用户投资行为关联。可选的,用户行为可以被数字化,比如“短线投资”这一用户行为可以被“持有期<X天”来体现。在金融领域,所述用户行为的体现可以包括但不限于持有期、单次收益平均值、单次收益最大值、单次收益最小值、预期年化收益率、交易次数、盈亏比、成功率、最大回撤率、周战胜率、夏普比率、最大连续无选股结果天数、平均每天选股数等一种或多种组合。
语意分析系统110在步骤902中分析出用户行为后可以在步骤903中关联拥有相似行为的用户。在本披露书的一些实施例中,步骤903可以包括根据信息将用户与用户行为进行匹配。在本披露书的一些实施例中,步骤903可以包括将步骤902中分析出的用户行为进行对比。进一步地,步骤903可以包括根据相匹配的用户行为将用户进行比较。步骤903可以进一步包括根据比较结果将拥有相似行为的用户进行关联。所述关联可以建立在社交网络上。所述社交网络可以包括现实社交、短信、彩信、电子邮件、QQ、MSN、微信、微博、豆瓣、Twitter、Facebook、Instagram、Yahoo Messenger、Reddit、人人、即时通讯软件工具、论坛等中 的一种或多种。
在本披露书的一些实施例中,步骤903可以与流程700相结合从而对关联的拥有相似行为的用户进行评分和排名。进一步地,所述结合还可以包括步骤903所关联用户中评分较高或较低的用户。步骤903还可以进一步包括使用户与所关联用户中评分较高者进行通信。所述通讯可通过社交网络实现,包括现实社交、短信、彩信、电子邮件、QQ、MSN、微信、微博、豆瓣、Twitter、Facebook、Instagram、Yahoo Messenger、Reddit、人人、即时通讯软件工具、论坛等中的一种或多种。比如,在金融领域,上述结合可以包括语意分析系统110自动根据预测类和陈述类的内容的正确性对步骤903所关联的拥有相似投资行为的用户进行评分。进一步地,高评分的用户可以被语意分析系统110自动标记为“投资高手”,低评分的用户可以与所关联的拥有相似投资行为的“投资高手”进行交流。所述低评分的用户也可以通过语意分析系统110与没有关联的拥有不相似投资行为“投资高手”进行交流。所述通信和交流可以建立在社交网络上。所述社交网络可以包括现实社交、短信、彩信、电子邮件、QQ、MSN、微信、微博、豆瓣、Twitter、Facebook、Instagram、Yahoo Messenger、Reddit、人人、即时通讯软件工具、论坛等中的一种或多种。
图10所示的是示例语意分析系统寻找并关联用户的示例流程图。流程1000可以是流程900的一个的实施例。如图10所示,语意分析系统110可以首先在步骤1001中对用户A进行一个或多个语意分析。所述语意分析可以由语意分析系统110中一个或多个模块实现(比如语意识别模块203,评估模块204和/或对比模块205)。语意分析系统110在步骤1001中进行语意分析之后可以在步骤1002中分析用户A的行为。步骤1002可以包括本披露书其他地方所述的分词处理和词语分类的方法。步骤1002可以进一步地包含根据分类后的词语判断语意识别后信息中包含的用户A的行为。在本披露书的一些实施例中,步骤1002可以包括本披露 书其他地方所述的对分词处理后的信息进行实体识别。进一步地,步骤1002可以包括根据分词处理和实体识别的结果等来分析与用户A相匹配的信息是否包含预测类或者陈述类的内容。在本披露书的一些实施例中,步骤1002可以包括本披露书其他实施例所述的对所述预测类或者陈述类的内容进行比较从而获得信息的评分。步骤1002可以进一步包含将与用户A相匹配的信息的评分整合与处理从而得到用户A的评分。在本披露书的一些实施例中,步骤1002可以包括收集用户A的其他信息。所述其他信息可以包括用户A的年龄、性别、地理位置、爱好等一种或多种组合。
语意分析系统110在步骤1002中分析完用户A的行为之后可以在步骤1003中寻找相似用户B。所述用户B可以与用户A的行为有相似性。在本披露书的一些实施例中,步骤1003可以包括将一个或多个用户与用户A的行为进行比较,筛选出具有相似用户行为的用户。进一步地,步骤1003可以包括对上述筛选出的用户进行排序。所述排序可以基于所述其他信息的匹配度。可选的,用户A可以提供筛选条件给语意分析系统110,从而语意分析系统110自动根据用户A提供的筛选条件筛选掉不满足条件的用户。语意分析系统110在步骤1003中寻找到相似用户B(或多个相似用户)之后可以在步骤1004中给用户A和用户B发送确认信息。确认信息可以包括双方用户的资料(例如本披露书其他实施例中提到的年龄、性别、地理位置、爱好等)。在本披露书的一些实施例中,用户也可以设置白名单、黑名单、过滤条件、是否接受拥有特定行为的用户的关联等使语意分析系统110自动判断所述关联是否可以确认。在本披露书的一些实施例中,步骤1004可以包括语意分析系统110提供一个暂时的关联以使双方用户进行暂时的通信从而确定是否建立正式的关联。如果一方在步骤1004中拒绝或者不确认建立关联,语意分析系统110会重新在步骤1003中寻找与用户A相似的用户直到用户A与寻找到的用户B均同意建立相互关联。如果双方均同意建立相互关联,语意分析系统110可以在 步骤1005中建立用户A与用户B的相互关联。
图11所示的是示例语意分析系统生成用户行为与评分的关系的流程图。步骤1101可以包括将信息与用户进行匹配并且对与所针对用户相匹配的信息进行语意分析。所述语意分析可以由语意分析系统110中的一个或多个模块实现(比如语意识别模块203,评估模块204和/或对比模块205)。在本披露书的一些实施例中,步骤1101所针对的用户可以是一个或多个用户。语意分析系统110在步骤1101进行语意分析之后可以在步骤1102中分析步骤1101所针对用户的行为。步骤1102可以包括本披露书其他地方所述的分词处理和词语分类的方法。步骤1102可以进一步地包含根据分类后的词语判断语意识别后信息中包含的一个或多个用户的行为。在本披露书的一些实施例中,步骤1102可以包括本披露书其他地方所述的对分词处理后的信息进行实体识别。进一步地,步骤1102可以包括根据分词处理和实体识别的结果等来分析与一个或多个用户相匹配的信息是否包含预测类或者陈述类的内容。在本披露书的一些实施例中,步骤1102可以包括本披露书其他实施例所述的对所述预测类或者陈述类的内容进行比较从而获得信息的评分。步骤1102可以进一步包含将与一个或多个相匹配的信息的评分整合与处理从而得到一个或多个用户的评分。在本披露书的一些实施例中,步骤1102可以包括收集一个或多个用户的其他信息。所述其他信息可以包括一个或多个用户的年龄、性别、地理位置、爱好等一种或多种组合。语意分析系统110在步骤1102中分析完用户的行为之后可以在步骤1103中更新所针对用户的评分。步骤1103可以由流程700(如图7所示)实施。语意分析系统110在步骤1103中更新了针对用户的评分后可以在步骤1104中对针对用户进行分类。所述分类可以包括根据所述用户的行为,将用户分成一个或多个不同的类别。所述同一类别的用户可以拥有相似的用户行为。同一个用户可以被分在一个或多个不同的类别中。。步骤1104完成之后,语意分析系统110可以在步骤1105中统计所述相 似用户的关联。步骤1105可以包括统计处在同一类别(拥有相似用户行为)的用户之间的关联性。进一步地,所述关联性可以包括用户背景的相似性。比如,在金融领域,步骤1105可以包括统计不同年龄段、不同性别、不同地域的投资者更偏向于进行类型的投资方式(比如,短期投资、长期投资、超短期投资股票、债券、黄金、纸黄金、白银、外汇、贵金属、期货、货币基金等)。步骤1106可以包括统计处在同一类别的用户的评分。在本披露书的一些实施例中,步骤1106可以包括统计用户背景与评分的关系。比如,在金融领域,步骤1106可以包括统计不同年龄段、不同性别、不同地域的投资者的评分以及进一步地,预测准确性。
语意分析系统110在统计完处在同一类别的用户的关联(步骤1105)和评分(步骤1106)之后可以在步骤1107中生成一个用户行为和评分的关系。用户行为和评分的关系可以包括不同类别的用户行为与评分的关系。在金融领域,所述关系可以包括不同投资行为与评分或者预测准确性的关系。
图12所示的是示例语意分析系统优化用户行为模型的流程图。流程1200可由语意分析系统110的一个或多个模块执行。在最开始的时候,语意分析系统110可以在步骤1201构建一个用户行为模型。所述用户行为模型可以是最普遍的用户行为。在金融领域,步骤1201可以包括构建一个投资行为模型,所述投资行为模型可以包括持有期、单次收益平均值、单次收益最大值、单次收益最小值、预期年化收益率、交易次数、盈亏比、成功率、最大回撤率、周战胜率、夏普比率、最大连续无选股结果天数、平均每天选股数等中的一项或多项。所述投资行为模型在初始的时候可以将上述项目均设为本披露书其他地方或其他来源得出的平均值。步骤1202可以包括判断是否预设条件被满足。预设条件可以是固定的次数(例如判断更新是否进行100次),也可以是与之前的模型或者连续的模型变化有关(例如判断模型连续2次更新后是否不再发生任何变化)。如果不满足预设条件,语意分析系统110可以 在步骤1203中收集用户行为与评分的关系。所述用户行为与评分的关系可以从步骤1107中获得。当语意分析系统110在步骤1203中收集到用户行为模型后,可以重新进行步骤1201来更新优化过的用户行为模型直到预设条件满足。如果满足所述预设条件,语意分析系统110可以生成一个优化过的用户行为模型。在本披露书的一些实施例中,所述用户行为模型可以被输出模块206输出,也可以被存储到系统存储模块207中。在金融领域,图12所示的流程1200可以包括根据用户投资行为与评分的关系更新优化过的用户投资模型从而生成一个与高评分用户(或“投资高手”)相关联的用户投资行为的模型。所述模型可以被用户学习或模仿。
图13是示例语意分析系统110的计算机设备配置的架构示意图。计算机1300能够被用于实现实施本申请中披露的特定系统。本实施例中的特定系统利用功能框图解释了一个包含用户界面的硬件平台。计算机1300可以实施当前描述语意分析系统110的一个或多个组件、模块、单元、子单元。另外,系统100能够被计算机1300通过其硬件设备、软件程序、固件以及它们的组合所实现。这种计算机可以是一个通用目的的计算机,也可以是一个有特定目的的计算机。两种计算机都可以被用于实现本实施例中的特定系统。为了方便起见,图13中只绘制了一台计算机,但是本实施例所描述的提供语意分析所需信息的相关计算机功能是可以以分布的方式、由一组相似的平台所实施的,分散系统的处理负荷。
如图13所示,计算机1300可包括内部通信总线1310,处理器(processor)1320,只读存储器(ROM)1330,随机存取存储器(RAM)1340,通信端口1350,输入/输出组件1360,输入/输出组件1360,硬盘137,用户界面1380。内部通信总线1310可配置为实现计算机1300组件间的数据通信。处理器1320用于执行程序指令完成在此披露书中所描述的语意分析系统110的任何功能、组件、模块、单元、子单元。处理器1320由一个或多个处理器组成。通信端口1350可配置实现计算机1300与其他系统100部件 (比如信息源130)之间数据通信(比如通过网络120)。计算机1300还包括不同形式的程序储存单元以及数据储存单元,例如硬盘1370,只读存储器(ROM)1330,随机存取存储器(RAM)1340,能够用于计算机处理和/或通信使用的各种数据文件,以及处理器1320所执行的可能的程序指令。输入/输出组件1360支持计算机1300与系统100其他组件(如用户界面1380)之间的输入/输出数据流。计算机1300也可以通过通信端口1350从网络120发送和接受信息及数据。
本领域技术人员能够理解,本申请所披露的内容可以出现多种变型和改进。例如,以上所描述的不同系统组件都是通过硬件设备所实现的,但是也可能只通过软件的解决方案得以实现。例如:在现有的服务器上安装系统。此外,这里所披露的位置信息的提供可能是通过一个固件、固件/软件的组合、固件/硬件的组合或硬件/固件/软件的组合得以实现。
以上的描述仅仅是本披露书的具体实施例,不应被视为是唯一的实施例。显然,对于本领域的专业人员来说,在了解本披露书内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修正和改变,但是这些修正和改变仍在本披露书的权利要求保护范围之内。

Claims (20)

  1. 一种用于金融领域的由一个计算机设备执行的语意分析的方法包括:
    由所述的计算机设备构建知识图谱;
    通过网络由所述的计算机设备,获取第一个用户在一个社交网络上发布的信息;
    由所述的计算机设备根据所述的信息生成一个标准信息;
    由所述的计算机设备根据所述的标准信息和所述的知识图谱生成一个用户行为;
    由所述的计算机设备根据所述的一个用户行为寻找拥有相似用户行为的另一个用户。
  2. 根据权利要求1所述的方法,所述的信息包括预测类信息。
  3. 根据权利要求1所述的方法,进一步包括通过所述的计算机设备为所述的第一个用户和另一个用户建立关联。
  4. 根据权利要求3所述的方法,所述的关联进一步建立在一个社交网络上。
  5. 根据权利要求1所述的方法,所述的计算机设备进一步接受所述第一个用户关于所述寻找另一个用户的输入。
  6. 根据权利要求5所述的方法,所述的输入可以包含所述的第一个用户在计算机设备中设置一个或多个筛选条件。
  7. 根据权利要求1所述的方法,进一步包括由所述的计算机设备验证所述信息的正确性。
  8. 根据权利要求7所述的方法,所述的验证所述信息的正确性包括由所述的计算机设备将所述信息与一个或多个已确认的信息进行对比。
  9. 根据权利要求7所述的方法,进一步包括根据所述信息的正确性对所述第一个用户给予评分。
  10. 一个用于金融领域的语意分析系统,包括:
    一个处理器;
    一个计算机可读存储介质,所述计算机存储介质承载指令,当由所述处理器执行所述指令时,所述指令使处理器执行:
    构建知识图谱;
    通过网络获取第一个用户在一个社交网络上发布的信息;
    根据所述的信息生成一个标准信息;
    根据所述的标准信息和所述的知识图谱生成一个用户行为;
    根据所述的一个用户行为寻找拥有相似用户行为的另一个用户。
  11. 根据权利要求10所述的系统,所述的信息包括预测类信息。
  12. 根据权利要求10所述的系统,所述处理器为所述的第一个用户和另一个用户建立关联。
  13. 根据权利要求12所述的系统,所述处理器在一个社交网络上为所述的第一个用户和另一个用户建立关联。
  14. 根据权利要求10所述的系统,所述处理器进一步接受所述第一个用户关于所述寻找另一个用户的输入。
  15. 根据权利要求14所述的系统,所述的输入可以包含所述的第一个用户在所述处理器中设置一个或多个筛选条件。
  16. 根据权利要求10所述的系统,所述处理器进一步验证所述信息的正确性。
  17. 根据权利要求16所述的系统,所述的验证所述信息的正确性包括由所述处理器将所述信息与一个或多个已确认的信息进行对比。
  18. 根据权利要求16所述的系统,所述处理器进一步根据所述标准信息的正确性对所述第一个用户给予评分。
  19. 根据权利要求10所述的系统,所述处理器对所述信息执行图片识别、视频识别、语音识别、文本格式处理、数字及单位归一化处理、加密文档解密中至少一种操作以生成所述标准信息。
  20. 一种计算机可读的存储媒介存储可执行指令,所述可执行指令使得一个计算机设备执行:
    构建知识图谱;
    通过网络获取第一个用户在一个社交网络上发布的信息;
    根据所述的信息生成一个标准信息;
    根据所述的标准信息和所述的知识图谱生成一个用户行为;
    根据所述的一个用户行为寻找拥有相似用户行为的另一个用户。
CN201680084092.3A 2016-09-02 2016-09-02 基于知识图谱的语意分析系统及方法 Active CN108885623B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2016/097943 WO2018040068A1 (zh) 2016-09-02 2016-09-02 基于知识图谱的语意分析系统及方法

Publications (2)

Publication Number Publication Date
CN108885623A true CN108885623A (zh) 2018-11-23
CN108885623B CN108885623B (zh) 2022-05-10

Family

ID=61299718

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680084092.3A Active CN108885623B (zh) 2016-09-02 2016-09-02 基于知识图谱的语意分析系统及方法

Country Status (3)

Country Link
US (2) US11593671B2 (zh)
CN (1) CN108885623B (zh)
WO (1) WO2018040068A1 (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11138269B1 (en) 2017-03-14 2021-10-05 Wells Fargo Bank, N.A. Optimizing database query processes with supervised independent autonomy through a dynamically scaling matching and priority engine
US11010675B1 (en) * 2017-03-14 2021-05-18 Wells Fargo Bank, N.A. Machine learning integration for a dynamically scaling matching and prioritization engine
US11138284B2 (en) * 2018-08-13 2021-10-05 Trustie Inc. Systems and methods for determining credibility at scale
US10931659B2 (en) * 2018-08-24 2021-02-23 Bank Of America Corporation Federated authentication for information sharing artificial intelligence systems
WO2020136790A1 (ja) * 2018-12-27 2020-07-02 三菱電機株式会社 エッジシステム、情報処理方法及び情報処理プログラム
US10671410B1 (en) * 2019-05-28 2020-06-02 Oracle International Corporation Generating plug-in application recipe extensions
US11182130B2 (en) 2019-05-28 2021-11-23 Oracle International Corporation Semantic analysis-based plug-in application recipe generation
US11169826B2 (en) 2019-05-28 2021-11-09 Oracle International Corporation User-assisted plug-in application recipe execution
CN111611498B (zh) * 2020-04-26 2024-01-02 北京科技大学 一种基于领域内部语义的网络表示学习方法及系统
CN111488468B (zh) * 2020-04-30 2021-12-14 北京建筑大学 地理信息知识点抽取方法、装置、存储介质及计算机设备
US11855861B2 (en) 2020-05-28 2023-12-26 Axellio Inc. High performance packet capture and analytics architecture
CN112989814B (zh) * 2021-02-25 2023-08-18 中国银联股份有限公司 检索图谱构建方法、检索方法、装置、设备及存储介质
CN113239290A (zh) * 2021-06-10 2021-08-10 杭州安恒信息技术股份有限公司 用于舆情监测的数据分析方法、装置和电子装置
US11443588B1 (en) * 2022-01-06 2022-09-13 Ladris Technologies, Inc. Algorithmic relational odds nexus system
US20230261957A1 (en) * 2022-02-16 2023-08-17 Axellio Inc. Framework for Anomaly Detection with Dynamic Model Selection
CN114925833B (zh) * 2022-04-20 2023-07-21 中国人民解放军91977部队 一种基于能力数据底图的目标状态规律知识挖掘方法
WO2023211304A1 (ru) * 2022-04-29 2023-11-02 Публичное Акционерное Общество "Сбербанк России" Система и способ сбора и обработки новостей в сети интернет
CN116204748A (zh) * 2022-12-28 2023-06-02 河北省气象服务中心(河北省气象影视中心) 一种数据处理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100268661A1 (en) * 2009-04-20 2010-10-21 4-Tell, Inc Recommendation Systems
CN102880985A (zh) * 2012-09-17 2013-01-16 沈文策 一种提示信息生成方法及装置
CN104240125A (zh) * 2014-09-27 2014-12-24 王志恒 一种机构和个人股评准确度评级方法
CN104268171A (zh) * 2014-09-11 2015-01-07 东北大学 基于活动相似和社交信任的社交网好友推荐系统及方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998044444A1 (en) 1997-04-02 1998-10-08 Rational Investors, Inc. Method and apparatus for virtual investment advisor and support system
US9747384B1 (en) * 2003-08-20 2017-08-29 Ip Holdings, Inc. Website personalization and predictive analytics using social networks, location, mobile and behavioral data
US8032480B2 (en) 2007-11-02 2011-10-04 Hunch Inc. Interactive computing advice facility with learning based on user feedback
US20090210713A1 (en) * 2008-02-15 2009-08-20 Jean Dobey Ourega Method and a system for securing and authenticating a message
US8676937B2 (en) * 2011-05-12 2014-03-18 Jeffrey Alan Rapaport Social-topical adaptive networking (STAN) system allowing for group based contextual transaction offers and acceptances and hot topic watchdogging
WO2014009400A1 (en) * 2012-07-13 2014-01-16 Telefonica, S.A. A method and a system for generating context-based content recommendations to users
US20140297644A1 (en) * 2013-04-01 2014-10-02 Tencent Technology (Shenzhen) Company Limited Knowledge graph mining method and system
WO2015006516A2 (en) 2013-07-09 2015-01-15 Lf Technology Development Corporation Limited Computer-aided decision systems
CN104933049B (zh) 2014-03-17 2019-02-19 华为技术有限公司 生成数字人的方法及系统
CN104021233B (zh) * 2014-06-30 2017-02-15 电子科技大学 一种基于社区发现的社交网络好友推荐方法
CN104462592B (zh) * 2014-12-29 2017-07-07 东北大学 基于不确定语义的社交网用户行为关系推演系统及方法
US11429883B2 (en) * 2015-11-13 2022-08-30 Microsoft Technology Licensing, Llc Enhanced computer experience from activity prediction
CN105760439B (zh) 2016-02-02 2018-12-07 西安交通大学 一种基于特定行为共现网络的人物共现关系图谱构建方法
US20180052842A1 (en) * 2016-08-16 2018-02-22 Ebay Inc. Intelligent online personal assistant with natural language understanding

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100268661A1 (en) * 2009-04-20 2010-10-21 4-Tell, Inc Recommendation Systems
CN102880985A (zh) * 2012-09-17 2013-01-16 沈文策 一种提示信息生成方法及装置
CN104268171A (zh) * 2014-09-11 2015-01-07 东北大学 基于活动相似和社交信任的社交网好友推荐系统及方法
CN104240125A (zh) * 2014-09-27 2014-12-24 王志恒 一种机构和个人股评准确度评级方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中国科学技术信息研究所: "《专利分析的方法探索与实证研究》", 31 August 2016 *

Also Published As

Publication number Publication date
WO2018040068A1 (zh) 2018-03-08
US20230222366A1 (en) 2023-07-13
CN108885623B (zh) 2022-05-10
US11593671B2 (en) 2023-02-28
US20190213488A1 (en) 2019-07-11

Similar Documents

Publication Publication Date Title
US20230222366A1 (en) Systems and methods for semantic analysis based on knowledge graph
US11334635B2 (en) Domain specific natural language understanding of customer intent in self-help
Kumar et al. Systematic literature review of sentiment analysis on Twitter using soft computing techniques
US10380249B2 (en) Predicting future trending topics
CN110909165B (zh) 数据处理方法、装置、介质及电子设备
Kestemont et al. Cross-genre authorship verification using unmasking
CN110888990B (zh) 文本推荐方法、装置、设备及介质
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
US9317594B2 (en) Social community identification for automatic document classification
Chen et al. An open automation system for predatory journal detection
CN113254777B (zh) 信息推荐方法、装置、电子设备及存储介质
CN113934941A (zh) 一种基于多维度信息的用户推荐系统及方法
WO2017107010A1 (zh) 基于事件回测的信息分析系统及方法
CN111754208A (zh) 一种招聘简历自动筛选方法
Wei et al. Online education recommendation model based on user behavior data analysis
Procter et al. Enabling social media research through citizen social science
Yenkikar et al. Sentimlbench: Benchmark evaluation of machine learning algorithms for sentiment analysis
Ali et al. Big social data as a service (BSDaaS): a service composition framework for social media analysis
CN110737749B (zh) 创业计划评价方法、装置、计算机设备及存储介质
CN114153948A (zh) 问答知识库的构建方法、智能交互方法及装置
CN113870998A (zh) 问诊方法、装置、电子设备和存储介质
Alzhrani Ideology detection of personalized political news coverage: A new dataset
Boutsoukis Near Real-Time Cryptocurrency Sentiment Analysis
Le et al. Applying Artificial Neural Network for Sentiment Analytics of Social Media Text Data in fastfood industry
US20230214679A1 (en) Extracting and classifying entities from digital content items

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant