CN107918797A - 用于编辑机器学习结果的方法和信息处理设备 - Google Patents

用于编辑机器学习结果的方法和信息处理设备 Download PDF

Info

Publication number
CN107918797A
CN107918797A CN201710116927.5A CN201710116927A CN107918797A CN 107918797 A CN107918797 A CN 107918797A CN 201710116927 A CN201710116927 A CN 201710116927A CN 107918797 A CN107918797 A CN 107918797A
Authority
CN
China
Prior art keywords
word
group
machine learning
unit
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710116927.5A
Other languages
English (en)
Inventor
相马早苗
中村政和
泽野佳伸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN107918797A publication Critical patent/CN107918797A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了用于编辑机器学习结果的方法和信息处理设备。所述用于编辑机器学习结果的方法是处理方法,通过所述处理方法,基于由机器学习处理程序学习到的语言的表达来生成相关词语组,所述机器学习处理程序基于输入数据来学习所述词语的表达,其中,使计算机执行过程,所述过程包括:使显示单元显示所生成的相关词语组;以及执行控制,使得在接收到要从所显示的相关词语组中消除的词语的指定后,当通过使用基于由所述机器学习处理程序学习到的所述词语的表达而生成的所述相关词语组来执行过程时,通过使用已经从其中消除了所指定的词语的组来执行所述过程。

Description

用于编辑机器学习结果的方法和信息处理设备
技术领域
本文所讨论的实施例涉及记录有机器学习结果编辑计算机程序(在下文中,“机器学习结果编辑程序”)的记录介质、用于编辑机器学习结果的方法以及信息处理设备。
背景技术
提供服务以使各种类型的信息可用,其中,从用户接收一个或更多个关键词的输入,通过使用搜索引擎利用所接收的关键词来进行搜索,并且呈现搜索结果。然而,取决于用户具有的知识量,存在以下一些情形:因为用户不能够想到合适的关键词,所以用户不能够找到所搜索的信息。为了处理这些情形,在近些年提出了使用聊天应用程序等的服务,其中,由被称为聊天机器人的机器人基于具有大量知识的专家的技能来回答来自用户的询问。例如,根据已经提出的方法,由金融机构提供服务,其中,聊天机器人在机器学习过程中学习与金融产品有关的数据,并且回答来自作为用户的客户的询问。
[专利文献1]国际公开册第WO 2016/084336号。
然而,当金融机构已经安排聊天机器人在机器学习过程中学习与金融产品有关的数据时,例如,存在以下一些情形:金融机构不想要聊天机器人输出例如与报价将很快结束的产品有关的信息作为对询问的响应。在那些情形下,从大量的学习目的数据中消除与报价将很快结束的产品有关的信息会带来很多麻烦。出于该原因,容易地消除与报价将很快结束的产品有关的信息是困难的。
发明内容
根据实施例的一个方面,一种作为处理方法的用于编辑机器学习结果的方法,通过该处理方法,基于由机器学习处理程序学习到的词语的表达来生成相关词语组,所述机器学习处理程序基于输入数据来学习词语的表达,其中,使计算机执行过程,所述过程包括:使显示单元显示所生成的相关词语组;以及执行控制,使得在接收到要从所显示的相关词语组中消除的词语的指定后,当通过使用基于由机器学习处理程序学习到的词语的表达而生成的相关词语组来执行过程时,通过使用已经从其中消除了所指定的词语的组来执行该过程。
附图说明
图1是例示根据第一实施例的信息处理设备的示例性配置的框图;
图2是例示学习结果存储单元的示例的图;
图3是例示编辑屏幕的示例的图;
图4是例示编辑屏幕的另一示例的图;
图5是例示词语的消除和添加的示例的图;
图6是例示编辑屏幕的又一示例的图;
图7是例示编辑屏幕的又一示例的图;
图8是例示根据第一实施例的机器学习结果编辑过程的示例的流程图;
图9是例示根据第一实施例的响应过程的示例的流程图;
图10是例示根据第二实施例的信息处理设备的示例性配置的框图;
图11是例示黑名单存储单元的示例的图;
图12是例示白名单存储单元的示例的图;以及
图13是例示执行机器学习结果编辑程序的计算机的示例的图。
具体实施方式
下面将参照附图来详细说明本申请中公开的记录有机器学习结果编辑程序的记录介质、用于编辑机器学习结果的方法、以及信息处理设备的示例性实施例。所公开的技术特征不受示例性实施例的限制。此外,只要不产生冲突,适当地对下面描述的实施例中的任意实施例进行组合就是可接受的。
[a]第一实施例
图1是例示根据一个实施例的信息处理设备的示例性配置的框图。图1所示的信息处理设备100是例如以下信息处理设备,所述信息处理设备被配置成针对被设计成用于金融机构的聊天机器人,通过向机器学习处理计算机程序(在下文中,“机器学习处理程序”)输入学习目的数据来执行机器学习过程以及编辑机器学习结果。换言之,信息处理设备100被配置成基于由机器学习处理程序学习到的词语的表达来生成相关词语组,所述机器学习处理程序基于输入数据来学习词语的表达。信息处理设备100被配置成使显示单元显示所生成的相关词语组。信息处理设备100被配置成执行控制,使得在接收到要从所显示的相关词语组中消除的词语的指定后,当通过使用基于由机器学习处理程序学习到的词语的表达而生成的相关词语组来执行过程时,通过使用已经从其中消除了所指定的词语的组来执行该过程。在具有这种布置的情况下,信息处理设备100能够容易地从机器学习结果中消除词语。在这种情形下,每个词语不一定必须是词语,并且可以都是词素。
接着,将说明信息处理设备100的配置。如图1中所示,信息处理设备100包括通信单元110、显示单元111、操作单元112、存储单元120和控制单元130。除了图1中所示的功能单元以外,信息处理设备100还可以包括已知计算机中所包括的各种类型的功能单元,例如各种类型的输入装置和音频输出装置。此外,虽然在下面的说明中使用词素作为句子的分析结果,但是可替选地使用词语。
通过使用例如网络接口卡(NIC)等来实现通信单元110。通信单元110是经由网络(未示出)以有线或无线方式连接至另一信息处理设备的通信接口,并且被配置成控制与所述另一信息处理设备的信息通信。例如,通信单元110从所述另一信息处理设备接收学习目的数据。通信单元110然后将所接收的学习目的数据输出至控制单元130。换言之,学习目的数据是输入数据的示例。此外,当从所述另一信息处理设备接收到询问数据时,通信单元110将所接收到的询问数据输出至控制单元130。此外,当响应数据从控制单元130输入至通信单元110时,通信单元110将输入的响应数据传送至所述另一信息处理设备。
显示单元111是被配置成显示各种类型的信息的显示装置。可以通过使用例如液晶显示装置等来将显示单元111实现为显示装置。显示单元111被配置成显示各种类型的屏幕,例如从控制单元130输入至显示单元111的编辑屏幕。
操作单元112是被配置成从信息处理设备100的管理员接收各种类型的操作的输入装置。可以通过使用例如键盘和/或鼠标来将操作单元112实现为输入装置。操作单元112被配置成将由管理员输入至其中的操作输出至控制单元130作为操作信息。可以通过使用触控面板等来将操作单元112实现为输入装置。可以一体化地构造用作显示单元111的显示装置和用作操作单元112的输入装置。
可以通过使用例如半导体存储装置如随机存取存储器(RAM)或闪存或者诸如硬盘或光盘等存储装置来实现存储单元120。存储单元120包括学习结果存储单元121。此外,存储单元120被配置成存储有在由控制单元130执行的过程中使用的信息。
学习结果存储单元121被配置成存储有用于由机器学习处理程序学习到的词语的表达的参数以与词语保持一致。图2是例示学习结果存储单元的示例的图。如图2中所示,学习结果存储单元121具有项目“词语”和“参数”。例如,学习结果存储单元121为词语中的每个词语存储有一个记录。在下面的说明中,当编辑机器学习结果时,词素和词语可以被统称为词语。
每个“词语”是通过对学习目的数据中的句子执行词素分析而获得的词素或者词语。每个“参数”是指示与表示机器学习结果的词语对应的向量的信息。在图2所示的示例中,作为参数的向量w0至w4对应于句子“Jutaku loan o kari tai”中的词语“jutaku”、“loan”、“o”、“kari”和“tai”。在另一示例中,作为参数的向量w0至w7对应于句子“I want toborrow a home loan.”中的词语“I”、“want”、“to”、“borrow”、“a”、“home”、“loan”和“.”。
返回至图1的描述,控制单元130被实现为例如使存储在内部存储装置中的计算机程序被中央处理器(CPU)、微处理器(MPU)等执行的结果,同时使用RAM作为工作区域。可替选地,例如,通过使用集成电路如专用集成电路(ASIC)或现场可编程门阵列(FPGA)来实现控制单元130也是可接受的。控制单元130包括学习单元131、显示控制单元132和改变单元133,并且被配置成实现或执行以下所描述的信息处理过程的功能或动作。此外,控制单元130的可能的内部配置不限于图1所述的配置。只要控制单元130被配置成执行以下所描述的信息处理过程,控制单元130就可以具有任何其他配置。
例如,当经由通信单元110从所述另一信息处理设备接收到学习目的数据时,学习单元131基于包括在接收到的学习目的数据中的句子来执行机器学习过程。换言之,学习单元131是被配置成执行机器学习处理程序的执行单元的示例,所述机器学习处理程序基于输入数据来学习词语的表达。作为机器学习过程,例如,学习单元131通过使用神经网络将词语表示为向量来理解并且学习词语的含义。作为机器学习过程的算法,学习单元131可以使用例如CBOW或Skip-gram。用于机器学习过程的实施方式的示例包括Word2Vec。
例如,学习单元131对包括在学习目的数据中的句子执行词素分析。学习单元131通过对例如分析结果(即,词语)中的词素中的每个词素应用Skip-gram来计算用作参数的向量w。学习单元131将所计算的向量w存储至学习结果存储单元121中以与词语保持一致。向量w中的每个向量是例如内积空间中的向量,并且可以是10至100维的向量。向量w的初始值是任意值。
此外,当两个词素具有彼此接近的含义时,它们的向量w彼此相似。在图2的示例中,词语“loan”的向量w1[1,1,0,0,0,1…]和词语“yushi(金融)”的向量wk[1,1,0,0,0,1…]是例如基于内积计算的相似性水平(即,词汇的接近性)为99%或更高的向量。
此外,例如,当经由通信单元110从所述另一信息处理设备(未示出)接收到询问数据时,学习单元131查阅学习结果存储单元121并且生成针对询问数据的响应数据。在该情形下,当生成响应数据时,由改变单元133删除的一个或更多个词语被消除。此外,当生成响应数据时,由改变单元133添加的一个或更多个词语被添加。学习单元131将所生成的响应数据经由通信单元110传送至所述另一信息处理设备(未示出)。
换言之,学习单元131通过使用基于由机器学习处理程序学习到的词语的表达而生成的相关词语组来执行过程。当执行过程时,学习单元131通过使用从其中消除了所指定的词语的组来执行所述过程。
当编辑机器学习结果时,显示控制单元132从管理员接收经受编辑过程的第一词语。当接收到第一词语时,显示控制单元132查阅学习结果存储单元121,从机器学习结果中提取与第一词语接近的词语组即相关词语组,并且生成编辑屏幕。显示控制单元132使显示单元111显示所生成的显示屏幕。
换言之,显示控制单元132基于由机器学习处理程序学习到的词语的表达来生成相关词语组,并且使显示单元111显示所生成的相关词语组。在这种情形下,相关词语组是包含相对大量的词语的组,所述相对大量的词语是作为单独的词语而在学习词语的表达的结果中的彼此接近的预定表达中使用的词语。
改变单元133被配置成在显示单元111上显示的编辑屏幕上接收要被管理员消除的第二词语。此外,改变单元133还被配置成在编辑屏幕上接收要被管理员添加的第三词语。
改变单元133判断是否已经接收了要被消除的第二词语。当已经接收了要被消除的第二词语时,改变单元133切断第一词语与第二词语之间的关联。更具体地,例如,改变单元133从学习结果存储单元121删除所接收的第二词语。
换言之,改变单元133执行控制,使得在接收到要从所显示的词语组中消除的词语的指定后,当通过使用基于由机器学习处理程序学习到的词语的表达而生成的相关词语组来执行过程时,通过使用已经从其中消除了所指定的词语的组来执行该过程。换言之,改变单元133是改变控制单元的示例。
改变单元133判断是否已经接收了要被添加至词语组的第三词语。当已经接收了要被添加至词语组的第三词语时,改变单元133在第一词语与第三词语之间建立关联。更具体地,例如,改变单元133向第三词语分配与第一词语的向量相似的向量,并且将结果存储至学习结果存储单元121中。
换言之,当在机器学习过程中学习新输入数据时,改变单元133使用用于包括在组中的除了已经接收对其消除指定的词语之外的词语的表达的参数作为初始值来在机器学习过程中学习新输入数据。
接着,将参照图3和图4来说明编辑屏幕。图3是例示编辑屏幕的示例的图。图3中所示的编辑屏幕20具有:设置区域21,其用于设置词语相对于机器学习结果的接近性的阙值;以及编辑区域22,其用于编辑与第一词语接近的词语组与第一词语的关联性,即,属于与第一词语相关的词语组的词语之间的关联性。此外,编辑区域22包括用于显示第一词语的区域23和用于显示与第一词语接近的词语组的区域24。例如,与第一词语接近的词语中的每个词语被显示在区域25中的一个相应区域中,并且具有用于确认其与第一词语的关联性的按钮26。在图3所示的示例中,与第一词语接近的词语中的每个词语的关联性被表示为“接通(ON)”。此外,编辑区域22具有用于添加第三词语的按钮27。
在编辑屏幕20的示例中,词语之间的接近性的阙值被设置为99%或更高,并且“一月”被设置为第一词语。在这种情形下,显示在区域24中的是下面的词语组,该词语组相对于词语“一月”的词语接近性(即,基于向量的内积的相似性水平)是99%或更高:“第22”、“七月”、“八月”、“奖金”、“恒定”、“固定的3年”、“最终”、“组合”、“计划”和“减少”。在这种情形下,当按下按钮27时,例如,显示用于添加与第一词语接近的另一词语的屏幕,使得输入的词语被添加至与第一词语接近的词语组,并且与词语“一月”的向量相似的向量还被生成并且存储至学习结果存储单元121中。
图4是例示编辑屏幕的另一示例的图。图4中所示的编辑屏幕30是例如通过从编辑屏幕20向下滚动以显示与另一第一词语相关的编辑区域31而获得的屏幕。编辑区域31包括用于显示第一词语的区域32和用于显示与第一词语接近的词语组的区域33。在与第一词语接近的词语组中,对于在区域34中显示的词语“赢得竞赛”,用于确认与第一词语的关联性的按钮35被表示为“关断(OFF)”。换言之,在与第一词语接近的词语组中,词语“赢得竞赛”作为要被消除的第二词语而要从学习结果存储单元121中删除。此外,与编辑区域22类似,编辑区域31也具有用于添加第三词语的按钮36。
因为已经从学习结果存储单元121中删除了第二词语,所以查阅学习结果存储单元121的机器学习处理程序(例如,聊天机器人)将第一词语和所删除的第二词语处理为在遥远表达中使用的词语。例如,当包含词语“奖金”的句子被输入至聊天机器人时,查阅学习结果存储单元121的聊天机器人将词语“赢得竞赛”处理为词语接近性(即,基于向量的内积的相似性水平)为0%的词语。在这种情形下,基于向量的内积的相似性水平不一定必须是0%,并且可以例如用另外的数值如30%或20%来表示。
接着,将参照图5来说明从学习结果存储单元121消除词语和向学习结果存储单元121添加词语。图5是例示词语的消除和添加的示例的图。图5例示了已经从其中消除了词语“赢得竞赛”并且已经向其中添加了词语“竞赛胜利者”的学习结果存储单元121的状态。当接收到消除词语“赢得竞赛”时,改变单元133从学习结果存储单元121中删除存储有词语“赢得竞赛”的参数的行40。随后,当接收到添加词语“竞赛胜利者”时,改变单元133将存储有词语“竞赛胜利者”的参数的行41添加至学习结果存储单元121。在该情形下,例如对于词语“竞赛胜利者”的参数(即,向量wi),改变单元133可以计算通过从与图4中所示的第一词语“奖金”接近的词语组中消除词语“赢得竞赛”而获得的词语组的向量的平均值作为词语“竞赛胜利者”的向量wi。换言之,改变单元133删除“赢得竞赛”的向量wd,并且添加“竞赛胜利者”的向量wi。此外,“竞赛胜利者”的向量wi是这样的向量:相对于向量wd-1和wd+1具有99%或更高的相似性水平,向量wd-1和wd+1与“赢得竞赛”的向量wd相似。
将参照图6和图7来说明编辑屏幕的另一示例。图6是例示编辑屏幕的又一示例的图。图6中所示的编辑屏幕50具有:设置框51,其用于设置相对于机器学习结果的词语接近性的阙值;以及词语组区域52,其用于显示词语组。此外,编辑屏幕50具有设置区域53,所述设置区域53用于显示选自词语组区域52的第一词语和与第一词语接近的词语组。例如,当从词语组区域52中的词语中选择“80岁”作为第一词语时,相对于“80岁”的相似性水平为“90%”(其被设置在设置框51中)或更高的词语组(即,属于相关词语组的词语)被列在设置区域53中。虽然图6例示了词语组中的词语“生日”被显示在设置区域53中的情形,但是可以显示来自词语组中的两个或更多个词语。此外,在设置区域53中,显示了指示“80岁”与“生日”之间的相似性水平的信息54。此外,设置区域53具有用于向学习结果存储单元121添加第三词语的按钮55,以及用于从学习结果存储单元121中消除选自与第一词语接近的词语组的词语的按钮56。
图7是例示编辑屏幕的又一示例的图。图7所示的编辑屏幕60是当例如在图6所示的编辑屏幕50上按压按钮55时显示的屏幕。编辑屏幕60具有:第一词语区域61,其显示被选为编辑屏幕50上的第一词语的词语“80岁”;输入框62,其用于接收要被添加至与第一词语接近的词语组的词语的输入;确认按钮63;以及取消按钮64。在编辑屏幕60上,当向输入框62中输入第三词语并且按压确认按钮63时,基于属于词语组的词语的向量来计算第三词语的向量,使得将第三词语和所计算的向量存储至学习结果存储单元121中以与彼此保持一致。在这种情形下,在编辑屏幕60上,当向输入框62中输入第三词语并且按压确认按钮63或取消按钮64时,显示返回至编辑屏幕50。
接着,将说明由根据第一实施例的信息处理设备100执行的操作。图8是例示根据第一实施例的机器学习结果编辑过程的示例的流程图。
当编辑机器学习结果时,显示控制单元132从管理员接收经受编辑过程的第一词语(步骤S1)。当接收到第一词语时,显示控制单元132查阅学习结果存储单元121,从机器学习结果中提取与第一词语接近的词语组,并且生成编辑屏幕。显示控制单元132使显示单元111显示所生成的编辑屏幕(步骤S2)。
改变单元133判断在显示单元111上显示的编辑屏幕上是否已经接收了要被消除的第二词语(步骤S3)。当已经接收了要被消除的第二词语时(步骤S3:是),改变单元133切断第一词语与第二词语之间的关联(步骤S4)并且前进至步骤S5。当尚未接收到要被消除的第二词语时(步骤S3:否),改变单元133前进至步骤S5。
改变单元133判断是否已经接收了要被添加至词语组的第三词语(步骤S5)。当已经接收了要被添加至词语组的第三词语时(步骤S5:是),改变单元133在第一词语与第三词语之间建立关联(步骤S6)并且前进至步骤S7。当尚未接收到要被添加至词语组的第三词语时(步骤S5:否),改变单元133前进至步骤S7。
例如,改变单元133基于从管理员输入的操作来判断是否要结束对第一词语的编辑过程(步骤S7)。当不结束对第一词语的编辑过程时(步骤S7:否),改变单元133返回至步骤S3。相反,当要结束对第一词语的编辑过程时(步骤S7:是),改变单元133例如基于从管理员输入的操作来判断是否要结束机器学习结果编辑过程(步骤S8)。当不结束机器学习结果编辑过程时(步骤S8:否),改变单元133返回至步骤S1。相反,当要结束机器学习结果编辑过程时(步骤S8:是),改变单元133结束机器学习结果编辑过程。通过使用该配置,信息处理设备100能够容易地从机器学习结果中消除词语。此外,信息处理设备100能够容易地将词语添加至机器学习结果。此外,信息处理设备100能够在从机器学习结果中消除仅涉及特定交易的词语并且保存学习结果的对于相关交易共有的部分的同时学习新的词语。因此,能够减少在机器学习过程中要新学习的信息的量。
接着,将参照图9来说明根据第一实施例的响应过程。图9是例示根据第一实施例的响应过程的示例的流程图。
学习单元131从例如另一信息处理设备(未示出)接收询问数据(步骤S11)。当接收到询问数据时,学习单元131查阅学习结果存储单元121并且通过使用已经从其中消除了所指定的词语的组来生成针对询问数据的响应数据(步骤S12)。学习单元131将所生成的响应数据传送至所述另一信息处理设备(未示出)(步骤S13)。在具有这种配置的情况下,当通过使用基于由机器学习处理程序学习到的词语的表达而生成的相关词语组来执行过程时,信息处理设备100能够通过使用已经从其中消除了所指定的词语的组来执行过程。
如以上所说明的,信息处理设备100基于由机器学习处理程序学习到的词语的表达来生成相关词语组,所述机器学习处理程序基于输入数据来学习词语的表达。此外,信息处理设备100使显示单元111显示所生成的相关词语组。此外,信息处理设备100执行控制,使得在接收到要从所显示的相关词语组中消除的词语的指定后,当通过使用基于由机器学习处理程序学习到的词语的表达而生成的相关词语组来执行过程时,通过使用已经从其中消除了所指定的词语的组来执行该过程。因此,能够容易地从机器学习结果中消除词语。
此外,当在机器学习过程中学习新输入数据时,信息处理设备100使用用于包括在组中的除了已经接收对其消除指定的词语之外的词语的表达的参数作为初始值来在机器学习过程中学习新输入数据。因此,能够容易地将词语添加至机器学习结果。
此外,信息处理设备100被配置成使得相关词语组是包含相对大量的词语的组,所述相对大量的词语是作为单独的词语而在学习词语的表达的结果中的彼此接近的预定表达中使用的词语。因此,能够呈现每个都具有被机器学习处理程序使用的高可能性的词语。
[b]第二实施例
在上述第一实施例中,要从词语组中消除的词语和要添加至词语组的词语被反映至学习结果存储单元121中,然而,将所消除的词语和所添加的词语存储至与学习结果存储单元121不同的存储单元中也是可接受的。将说明这种情形下的实施例作为第二实施例。图10是例示根据第二实施例的信息处理设备的示例性配置的框图。与根据第一实施例的信息处理设备100相比,图10中所示的根据第二实施例的信息处理设备200包括代替存储单元120和控制单元130的存储单元220和控制单元230。将通过使用相同的附图标记来表示该配置的元件中的与根据第一实施例的信息处理设备100中的那些元件相同的一些元件,并且将省略配置中的重复元件及其操作的说明。
与存储单元120相比,存储单元220还包括黑名单存储单元222和白名单存储单元223。
黑名单存储单元222被配置成存储有要从机器学习结果中消除的一个或更多个词语以与词语中的每个词语保持一致。换言之,黑名单存储单元222被配置成存储有要从机器学习结果中消除的一个或更多个第二词语以与第一词语中的每个词语保持一致。图11是例示黑名单存储单元的示例的图。如图11中所示,黑名单存储单元222具有项目“词语”和“目标词语”。例如,黑名单存储单元222为词语中的每个词语存储有一个记录。
每个“词语”是通过对学习目的数据中的句子执行词素分析而获得的词素或者词语。“目标词语”的每个条目是指示要从相对于相应“词语”的学习结果中消除的一个或更多个词语的信息。图11的第一行中的示例指示要从相对于词语“w1”的学习结果中消除目标词语“w7”和“w15”。在图11的示例中,用词语的向量的符号来表示每个“词语”。
返回至图10的描述,白名单存储单元223被配置成存储有要被添加至机器学习结果的一个或更多个词语以与词语中的每个词语保持一致。换言之,白名单存储单元223被配置成存储有要被添加至机器学习结果的一个或更多个第三词语以与第一词语中的每个词语保持一致。图12是例示白名单存储单元的示例的图。如图12中所示,白名单存储单元223具有项目“词语”和“目标词语”。例如,白名单存储单元223为词语中的每个词语存储有一个记录。
每个“词语”是通过对学习目的数据中的句子执行词素分析而获得的词素或者词语。“目标词语”的每个条目是指示要相对于相应“词语”被添加的一个或更多个词语的信息。图12的第一行中的示例指示要将目标词语“w21”和“w22”添加至关于词语“w1”的学习结果。在图12的示例中,用词语的向量的符号来表示每个“词语”。
返回至图10的描述,与控制单元130相比,控制单元230包括代替改变单元133的改变单元233。
改变单元233被配置成在显示单元111上显示的编辑屏幕上接收要被管理员消除的一个或更多个第二词语。此外,改变单元233还被配置成在编辑屏幕上接收要被管理员添加的一个或更多个第三词语。
改变单元233判断是否已经接收了要被消除的一个或更多个第二词语。当已经接收了要被消除的一个或更多个第二词语时,改变单元233切断第一词语与第二词语之间的关联。更具体地,例如,改变单元233将第二词语存储至黑名单存储单元222中以与第一词语的黑名单保持一致。
改变单元233判断是否已经接收了要被添加至词语组的一个或更多个第三词语。当已经接收了要被添加至词语组的一个或更多个第三词语时,改变单元233在第一词语与第三词语之间建立关联。更具体地,例如,改变单元233向第三词语中的每个词语分配与第一词语的向量相似的向量,并且将结果存储至白名单存储单元223中。
换言之,与被配置成将改变反映至学习结果存储单元121中的改变单元133相比,改变单元233被不同地配置成将改变存储至黑名单存储单元222和白名单存储单元223中。然而,因为除了该不同之外,由信息处理设备200执行的操作与由根据第一实施例的信息处理设备100执行的操作相同,所以将省略关于由信息处理设备200执行的机器学习结果编辑过程和响应过程的说明。
如以上所说明的,与根据第一实施例的信息处理设备100类似,根据第二实施例的信息处理设备200也能够容易地从机器学习结果中消除词语。此外,信息处理设备200能够容易地将词语添加至机器学习结果。此外,信息处理设备200能够在从机器学习结果中消除仅涉及特定交易的词语并且保存学习结果的相关交易共有的部分的同时学习新的词语。因此,能够减少在机器学习过程中要新学习的信息的量。
在上述实施例中,将被金融机构使用的聊天机器人作为示例进行了说明,然而,可能的实施例不限于该示例。例如,能够类似地编辑通过学习各种类型设备中的任意设备的指令手册或常见问题(FAQ)而获得的机器学习结果。
此外,在上述实施例中,要被消除的词语被从学习结果存储单元121中删除,或者被存储为黑名单,而要被添加的词语被添加至学习结果存储单元121或者被存储为白名单。然而,可能的实施例不限于该示例。例如,相对于通过从被设计成用于某金融机构的聊天机器人的学习结果中消除特定于该金融机构的一个或更多个词语而获得的学习结果,使机器学习处理程序学习另一金融机构的商业产品的数据也是可接受的。换言之,使机器学习处理程序学习指令手册或FAQ的句子数据,而不是向其添加词语。在具有这种配置的情况下,能够减少在针对所述另一金融机构的机器学习过程中要新学习的信息的量。
此外,图中所示的功能单元的组成元件不一定必须在物理上被配置为图中所示的那样。换言之,功能单元的分布和集成的具体模式不限于图中所示的那些模式。取决于各种负载和使用状态,在功能上或在物理上分布或集成任意单元的功能单元中的所有功能单元或部分功能单元是可接受的。例如,显示控制单元132和改变单元133可以被集成在一起。此外,图中所示的过程不一定必须按照上述顺序来执行。只要在处理的内容中不产生冲突,那么彼此同时地执行或者按照与上述顺序不同的顺序来执行过程中的任意过程就是可接受的。
此外,由所述设备和装置实现的各种类型的处理功能中的所有处理功能或任意部分处理功能可以由CPU(或微型计算机如MPU或微型控制器单元[MCU])来执行。此外,不必说,各种类型的处理功能中的所有处理功能或任意部分处理功能可以通过由CPU(或微型计算机如MPU或MCU)分析和执行的程序或使用有线逻辑的硬件来实现。
此外,在以上实施例中描述的各种类型的过程可以通过使计算机执行提前准备的程序来实现。因此,在下面的部分中,将说明执行具有与以上实施例中所描述的功能相同的功能的程序的这样的计算机的示例。图13是例示执行机器学习结果编辑程序的计算机的示例的图。
如图13所示,计算机300包括:CPU 301,其被配置成执行各种类型的算法处理过程;输入装置302,其被配置成接收数据的输入;以及监视器303。此外,计算机300包括:介质读取装置304,其被配置成从存储介质中读取程序等;接口装置305,其被配置成与各种类型的设备建立连接;以及通信装置306,其被配置成以有线或无线方式与另一信息处理设备等建立连接。此外,计算机300包括:RAM 307,其被配置成暂态地存储有各种类型的信息;以及硬盘装置308。此外,装置301至308连接至总线309。
硬盘装置308存储有机器学习结果编辑程序,所述机器学习结果编辑程序具有与处理单元如图1所示的学习单元131、显示控制单元132和改变单元133的功能相同的功能。可替选地,硬盘装置308可以存储有机器学习结果编辑程序,所述机器学习结果编辑程序具有与处理单元如图10所示的学习单元131、显示控制单元132和改变单元233的功能相同的功能。此外,硬盘装置308存储有各种类型的数据,所述数据用于实现学习结果存储单元121和机器学习结果编辑程序。可替选地,硬盘装置308可以存储有各种类型的数据,所述数据用于实现学习结果存储单元121、黑名单存储单元222、白名单存储单元223和机器学习结果编辑程序。输入装置302被配置成例如从计算机300的管理员接收各种类型的信息如操作信息的输入。监视器303被配置成为计算机300的管理员显示例如各种类型的屏幕如编辑屏幕。接口装置305具有例如连接至接口装置305的打印装置等。例如,通信装置306具有与图1或图10所示的通信单元110的功能相同的功能,并且被配置成在连接至网络(未示出)时与另一信息处理设备交换各种类型的信息。
CPU 301被配置成通过读取存储在硬盘装置308中的程序、将所读取的程序加载至RAM 307中、并且执行该程序来执行各种类型的过程。此外,程序能够使计算机300作为图1所示的学习单元131、显示控制单元132和改变单元133工作。可替选地,程序能够使计算机300作为图10所示的学习单元131、显示控制单元132和改变单元233工作。
此外,上述机器学习结果编辑程序不一定必须存储在硬盘装置308中。例如,另外的布置是可接受的,其中,由计算机读取和执行存储在计算机300可读取的存储介质中的程序。计算机300可读取的存储介质的示例包括便携式记录介质如压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)或通用串行总线(USB)存储器、半导体存储器如闪存、以及硬盘驱动器。此外,将机器学习结果编辑程序存储至连接至公共通信线路、因特网或局域网(LAN)的设备中以使得计算机300从设备中的任意设备读取和执行机器学习结果编辑程序也是可接受的。
能够容易地从机器学习结果中消除词语。

Claims (6)

1.一种用于编辑机器学习结果的方法,所述方法是处理方法,通过所述处理方法,基于由机器学习处理程序学习到的词语的表达来生成相关词语组,所述机器学习处理程序基于输入数据来学习所述词语的表达,其中,使计算机执行过程,所述过程包括:
使显示单元显示所生成的相关词语组;以及
执行控制,使得在接收到要从所显示的相关词语组中消除的词语的指定后,当通过使用基于由所述机器学习处理程序学习到的所述词语的表达而生成的所述相关词语组来执行过程时,通过使用已经从其中消除了所指定的词语的组来执行所述过程。
2.根据权利要求1所述的用于编辑机器学习结果的方法,其中,使所述计算机执行所述过程,所述过程还包括:
当在机器学习过程中学习新输入数据时,使用用于包括在所述组中的除了已经接收对其消除指定的词语之外的词语的表达的参数作为初始值来在所述机器学习过程中学习所述新输入数据。
3.根据权利要求1所述的用于编辑机器学习结果的方法,其中,所述相关词语组是包含相对大量的词语的组,所述相对大量的词语是作为单独的词语而在学习所述词语的表达的结果中的彼此接近的预定表达中使用的词语。
4.一种信息处理设备,所述信息处理设备基于由机器学习处理程序学习到的词语的表达来生成相关词语组,所述机器学习处理程序基于输入数据来学习所述词语的表达,所述信息处理设备包括:
显示控制单元,所述显示控制单元使显示单元显示所生成的相关词语组;以及
改变控制单元,所述改变控制单元执行控制,使得在接收到要从所显示的相关词语组中消除的词语的指定后,当通过使用基于由所述机器学习处理程序学习到的所述词语的表达而生成的所述相关词语组来执行过程时,通过使用已经从其中消除了所指定的词语的组来执行所述过程。
5.根据权利要求4所述的信息处理设备,其中,当在机器学习过程中学习新输入数据时,所述改变控制单元还在使用用于包括在所述组中的除了已经接收对其消除指定的词语之外的词语的表达的参数作为初始值时在所述机器学习过程中学习所述新输入数据。
6.根据权利要求4所述的信息处理设备,其中,所述相关词语组是包含相对大量的词语的组,所述相对大量的词语是作为单独的词语而在学习所述词语的表达的结果中的彼此接近的预定表达中使用的词语。
CN201710116927.5A 2016-10-06 2017-03-01 用于编辑机器学习结果的方法和信息处理设备 Pending CN107918797A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/287,297 US20180101789A1 (en) 2016-10-06 2016-10-06 Method for editing machine learning result and information processing apparatus
US15/287,297 2016-10-06

Publications (1)

Publication Number Publication Date
CN107918797A true CN107918797A (zh) 2018-04-17

Family

ID=58261579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710116927.5A Pending CN107918797A (zh) 2016-10-06 2017-03-01 用于编辑机器学习结果的方法和信息处理设备

Country Status (4)

Country Link
US (1) US20180101789A1 (zh)
EP (1) EP3306485A1 (zh)
JP (1) JP6984142B2 (zh)
CN (1) CN107918797A (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11126920B2 (en) * 2017-05-12 2021-09-21 Fujitsu Limited Interaction scenario display control method and information processing apparatus
DE102018207513A1 (de) * 2018-05-15 2019-11-21 Siemens Aktiengesellschaft Verfahren zum rechnergestützten Lernen eines Roboters über einen Sprachdialog
US10659400B2 (en) 2018-10-05 2020-05-19 The Toronto-Dominion Bank Automated population of deep-linked interfaces during programmatically established chatbot sessions
US11003863B2 (en) * 2019-03-22 2021-05-11 Microsoft Technology Licensing, Llc Interactive dialog training and communication system using artificial intelligence
CN113076431B (zh) * 2021-04-28 2022-09-02 平安科技(深圳)有限公司 机器阅读理解的问答方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080027800A1 (en) * 2006-07-28 2008-01-31 Yves Schabes Method and apparatus for selecting related terms for electronic advertising
CN101661462A (zh) * 2009-07-17 2010-03-03 北京邮电大学 四层结构的中文文本正则化体系及实现
CN103853824A (zh) * 2014-03-03 2014-06-11 沈之锐 一种基于深度语义挖掘的内文广告发布方法与系统
US20160170982A1 (en) * 2014-12-16 2016-06-16 Yahoo! Inc. Method and System for Joint Representations of Related Concepts

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281522B (zh) * 2007-04-06 2010-11-03 阿里巴巴集团控股有限公司 一种处理相关关键词的方法及系统
KR101248187B1 (ko) * 2010-05-28 2013-03-27 최진근 확장 검색어 선정 시스템 및 확장 검색어 선정 방법
US9430563B2 (en) * 2012-02-02 2016-08-30 Xerox Corporation Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space
US9384244B1 (en) * 2012-11-28 2016-07-05 BloomReach Inc. Search with autosuggest and refinements
US9037464B1 (en) * 2013-01-15 2015-05-19 Google Inc. Computing numeric representations of words in a high-dimensional space
US9582608B2 (en) * 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
US10565533B2 (en) * 2014-05-09 2020-02-18 Camelot Uk Bidco Limited Systems and methods for similarity and context measures for trademark and service mark analysis and repository searches
US9860200B1 (en) * 2014-08-27 2018-01-02 Google Llc Message suggestions
WO2016084336A1 (ja) 2014-11-27 2016-06-02 日本電気株式会社 追学習装置、追学習方法、および、記憶媒体
US11025565B2 (en) * 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10789545B2 (en) * 2016-04-14 2020-09-29 Oath Inc. Method and system for distributed machine learning
US10855561B2 (en) * 2016-04-14 2020-12-01 Oracle International Corporation Predictive service request system and methods

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080027800A1 (en) * 2006-07-28 2008-01-31 Yves Schabes Method and apparatus for selecting related terms for electronic advertising
CN101661462A (zh) * 2009-07-17 2010-03-03 北京邮电大学 四层结构的中文文本正则化体系及实现
CN103853824A (zh) * 2014-03-03 2014-06-11 沈之锐 一种基于深度语义挖掘的内文广告发布方法与系统
US20160170982A1 (en) * 2014-12-16 2016-06-16 Yahoo! Inc. Method and System for Joint Representations of Related Concepts

Also Published As

Publication number Publication date
JP6984142B2 (ja) 2021-12-17
EP3306485A1 (en) 2018-04-11
US20180101789A1 (en) 2018-04-12
JP2018060503A (ja) 2018-04-12

Similar Documents

Publication Publication Date Title
CN107918797A (zh) 用于编辑机器学习结果的方法和信息处理设备
Bröder et al. The use of recognition information and additional cues in inferences from memory
Rodrigues et al. Open challenges of blind people using smartphones
US10991029B2 (en) Background content suggestion for combination with identified items
Lipkovich et al. Multiplicity issues in exploratory subgroup analysis
CN112418310A (zh) 文本风格迁移模型训练方法和系统及图像生成方法和系统
WO2020246325A1 (ja) 情報処理装置、情報処理方法、及びプログラム
Park et al. Using total sample size weights in meta-analysis of log-odds ratios
CN105184037B (zh) 运用专家信息的辅助分析系统及其方法
JP4607943B2 (ja) セキュリティレベル評価装置およびセキュリティレベル評価プログラム
WO2021095358A1 (ja) 学習方法、評価装置、及び評価システム
JP7440352B2 (ja) 教育コンテンツ作成システム及び方法
D'Agostino Sr et al. New developments in medical clinical trials
Upadhyaya et al. Smart Multi-linguistic Health Awareness System using RASA Model
US20140272903A1 (en) System for identifying orientations of an individual
Prezenski et al. Combining cognitive ACT-R models with usability testing reveals users mental model while shopping with a smartphone application
Meyer et al. A Scenario Generator for Evaluating the Social Acceptability of Emerging Technologies
CN109740131A (zh) 一种表单数据的处理方法及装置、终端设备及存储介质
Guiyab Development of prediction models for the dengue survivability prediction: An integration of data mining and decision support system
KR102604242B1 (ko) 외부 모델과 연동하는 생성형 인공지능을 포함하는k-gpt 솔루션 기반의 전자 장치 및 시스템
Ma et al. Using foresight methods to anticipate future threats: the case of disease management
JP7456589B1 (ja) 学習支援装置、学習支援システム、学習支援方法、及びプログラム
WO2021192381A1 (ja) 支援装置及び方法
JP4325476B2 (ja) 組織図編集装置及びプログラム
JP2023064408A (ja) アンケート結果分析プログラム、アンケート結果分析方法、および情報処理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180417